[投资] [分享] 如何避免量化回测里的未来函数?

上次问了 回测和实盘差距的因素 ,V 友 @KeinHong 特别提了“数据有未来函数”,最近又重新研究了下这块,和大家分享下收获: 1. 什么是未来函数? 简单来说,就是在 T 时刻的代码逻辑里,使用了 T+1 时刻的信息。 最典型的逻辑错误: 收盘价陷阱: 计算出今日收盘价突破压力位,然后在“今...
[投资] [分享] 如何避免量化回测里的未来函数?
[投资] [分享] 如何避免量化回测里的未来函数?

上次问了回测和实盘差距的因素,V 友 @KeinHong 特别提了“数据有未来函数”,最近又重新研究了下这块,和大家分享下收获:

1. 什么是未来函数?

简单来说,就是在 T 时刻的代码逻辑里,使用了 T+1 时刻的信息。

最典型的逻辑错误:

  • 收盘价陷阱: 计算出今日收盘价突破压力位,然后在“今日开盘”买入。

  • 全局归一化: 在预处理数据时,用了整个数据集的最大值/最小值。

  • 偷看一眼: 使用 df\['close'\].shift(-1) 却忘了这是在模拟历史。

2. 难以察觉未来函数?

在复杂的策略中,未来函数往往隐藏在数据清洗和特征工程阶段。

一旦引入,回测结果就会变成上帝视角,曲线完美,但实盘时并没有上帝视角。

3. 尝试去掉未来函数

以下是一个简单的 Python 示例,演示如何获取数据并确保交易决策仅基于过去的信息。


import time
import requests
import pandas as pd

API_KEY = 'YOUR_API_KEY'
BASE_URL = 'https://quote.alltick.io/quote-b-api/kline'

def get_historical_data(symbol, bin_size='1m'):
    params = {
        'token': API_KEY,
        'symbol': symbol,
        'kline_type': bin_size, # 1m, 5m, 1h, 1d
        'query_count': 500
    }
    response = requests.get(BASE_URL, params=params)
    data = response.json()
    
    if data['code'] != 200:
        print("Error fetching data")
        return None
    
    df = pd.DataFrame(data['data']['list'])
    df['time'] = pd.to_datetime(df['t'], unit='s')
    df.set_index('time', inplace=True)
    return df[['o', 'h', 'l', 'c', 'v']] # Open, High, Low, Close, Volume

def backtest_logic(df):
    """
    一个简单的突破策略
    核心:确保信号产生后,在下一根 K 线才能成交
    """
    # 1. 特征计算:仅使用过去的数据 (shift 1 位)
    # 计算前 20 分钟的最高价,不包含当前这一分钟
    df['prev_high'] = df['c'].shift(1).rolling(window=20).max()
    
    # 2. 产生信号:当前价格 > 过去 20 分钟最高价
    # 注意:这里的 'c' 是当前时刻确定的,买入动作必须发生在‘未来’
    df['signal'] = df['c'] > df['prev_high']
    
    # 3. 模拟成交 (关键!避免未来函数)
    # 我们不能以产生信号那一刻的收盘价成交,而应模拟以“下一分钟开盘价”买入
    df['execution_price'] = df['o'].shift(-1) 
    
    # 计算收益
    df['returns'] = 0.0
    # 只有信号为 True 且我们有下一分钟成交价时才计算
    hold_mask = df['signal'].shift(1) == True
    df.loc[hold_mask, 'returns'] = (df['c'] - df['execution_price'].shift(1)) / df['execution_price'].shift(1)
    
    return df.dropna()

# 运行回测(以黄金 XAUUSD 为例)
gold_data = get_historical_data('XAUUSD')
if gold_data is not None:
    results = backtest_logic(gold_data)
    print(results[['c', 'prev_high', 'signal', 'returns']].tail(10))

4. 如何自测?

如果你怀疑回测有问题,尝试:

  1. 随机噪声法: 将历史数据的价格顺序随机打乱,如果策略还能跑出高收益,说明逻辑里肯定藏着未来函数——因为它正在利用“乱序”后的未来信息。

  2. 信号漂移检查: 记录下回测中某天的买入信号。然后删除该日期之后的所有数据,重新跑一遍。如果那个信号消失了,说明该信号依赖于未来的数据。

最后,回测是用来证伪的,要时刻警惕 shift(-1) 或 max(future) 的逻辑,才能在量化这条路上走得远一点。欢迎大家来讨论下避免未来函数的方式

来源: v2ex查看原文