上次问了回测和实盘差距的因素,V 友 @KeinHong 特别提了“数据有未来函数”,最近又重新研究了下这块,和大家分享下收获:
1. 什么是未来函数?简单来说,就是在 T 时刻的代码逻辑里,使用了 T+1 时刻的信息。
最典型的逻辑错误:
-
收盘价陷阱: 计算出今日收盘价突破压力位,然后在“今日开盘”买入。
-
全局归一化: 在预处理数据时,用了整个数据集的最大值/最小值。
-
偷看一眼: 使用 df\['close'\].shift(-1) 却忘了这是在模拟历史。
在复杂的策略中,未来函数往往隐藏在数据清洗和特征工程阶段。
一旦引入,回测结果就会变成上帝视角,曲线完美,但实盘时并没有上帝视角。
3. 尝试去掉未来函数以下是一个简单的 Python 示例,演示如何获取数据并确保交易决策仅基于过去的信息。
import time
import requests
import pandas as pd
API_KEY = 'YOUR_API_KEY'
BASE_URL = 'https://quote.alltick.io/quote-b-api/kline'
def get_historical_data(symbol, bin_size='1m'):
params = {
'token': API_KEY,
'symbol': symbol,
'kline_type': bin_size, # 1m, 5m, 1h, 1d
'query_count': 500
}
response = requests.get(BASE_URL, params=params)
data = response.json()
if data['code'] != 200:
print("Error fetching data")
return None
df = pd.DataFrame(data['data']['list'])
df['time'] = pd.to_datetime(df['t'], unit='s')
df.set_index('time', inplace=True)
return df[['o', 'h', 'l', 'c', 'v']] # Open, High, Low, Close, Volume
def backtest_logic(df):
"""
一个简单的突破策略
核心:确保信号产生后,在下一根 K 线才能成交
"""
# 1. 特征计算:仅使用过去的数据 (shift 1 位)
# 计算前 20 分钟的最高价,不包含当前这一分钟
df['prev_high'] = df['c'].shift(1).rolling(window=20).max()
# 2. 产生信号:当前价格 > 过去 20 分钟最高价
# 注意:这里的 'c' 是当前时刻确定的,买入动作必须发生在‘未来’
df['signal'] = df['c'] > df['prev_high']
# 3. 模拟成交 (关键!避免未来函数)
# 我们不能以产生信号那一刻的收盘价成交,而应模拟以“下一分钟开盘价”买入
df['execution_price'] = df['o'].shift(-1)
# 计算收益
df['returns'] = 0.0
# 只有信号为 True 且我们有下一分钟成交价时才计算
hold_mask = df['signal'].shift(1) == True
df.loc[hold_mask, 'returns'] = (df['c'] - df['execution_price'].shift(1)) / df['execution_price'].shift(1)
return df.dropna()
# 运行回测(以黄金 XAUUSD 为例)
gold_data = get_historical_data('XAUUSD')
if gold_data is not None:
results = backtest_logic(gold_data)
print(results[['c', 'prev_high', 'signal', 'returns']].tail(10))
4. 如何自测?
如果你怀疑回测有问题,尝试:
-
随机噪声法: 将历史数据的价格顺序随机打乱,如果策略还能跑出高收益,说明逻辑里肯定藏着未来函数——因为它正在利用“乱序”后的未来信息。
-
信号漂移检查: 记录下回测中某天的买入信号。然后删除该日期之后的所有数据,重新跑一遍。如果那个信号消失了,说明该信号依赖于未来的数据。
最后,回测是用来证伪的,要时刻警惕 shift(-1) 或 max(future) 的逻辑,才能在量化这条路上走得远一点。欢迎大家来讨论下避免未来函数的方式