每个交易日,150 个独一无二的 LLM agent × 5 只股票读当天真实行情与新闻,各自推理出对次日的判断,汇成一个带波动率校准区间的预测。第二天,用真实收盘评分。预测的目标在做出时根本不存在——所以没有 lookahead,也没有训练数据污染。这是检验「AI 群体到底有没有真实 edge」唯一诚实的方法。
因为几乎所有 AI 交易研究都犯同一个错——而这个项目存在,就是为了不犯它。
LLM 有训练截止日。让它「预测」2024 年的 AAPL,它很可能记得当时真实发生了什么——这不是预测,是泄题。
于是几乎所有「AI 选股回测很赚」的结论都被训练数据污染,分不清是真 edge 还是在背答案。
唯一诚实的检验:预测一个做出时还根本不存在的未来交易日,第二天再用真实收盘对账。
目标价格在预测时不存在 → 没有 lookahead、没有训练数据污染。剩下的命中率,才是可信的。
"别问『回测能赚多少』。问『把训练数据里的答案抹掉之后,它还剩多少』。"
先给到期的旧预测拉真实收盘评分,再做今天的新预测。两步之间隔着一整夜——目标价格在预测时还不存在,泄露从结构上被堵死。
每只股票拉当天的 live 行情、技术指标、GDELT 新闻头条——全部 ≤ 今天。
每个 agent 是独一无二的 persona(资本、时间尺度、风险、逆向性各异),用语言独立推出自己的多空判断。
agent 沿带符号的影响力网络相互带动——羊群与逆向在数学上涌现,不是脚本写死的。
按资本 × 影响力 × 时间尺度加权,得出次日预期收益 + 锚定真实波动率的 95% 区间。
用真实收盘对比:方向命中?落在区间内?误差多少?记入永久、可复现的战绩。
大多数"AI 群体预测"把每个 agent 的观点加权平均成一个数。但真实市场里没人在算平均——每个人下单,订单簿撮合,价格从供需交叉处涌现。
有资本的 agent 把判断变成订单:多头是买方(愿付到自己的保留价)、空头是卖方。下单量 ∝ √资本 × 信念——机构主导价格冲击,但不绝对碾压人群。经济学家只发声、不下单。
一轮集合竞价找到供需相等、成交量最大的那个价。再加一层做市商/指数被动流动性给订单簿深度。涌现收益 = 出清价 / 今收 − 1。它对保留价的分布敏感,不是均值——一撮激进卖方就能把价格钉住。
同一个零泄露前向测试里,群体共识(加权平均)、市场出清(#3 涌现)、非 LLM 基准三者分别打分。到底是"平均观点"还是"撮合价格"更接近明天,让命中率自己回答。
不是"一个聪明模型猜数字",而是一个分层的市场世界模型:语言模型负责"想",社会动力学和撮合负责"形成价格",前向打分负责"验证"。
语言模型负责语言、因果、异质判断(贵,所以只用 150 个真推理);撮合与意见动力学负责定价(便宜,纯数学、可扩展)。既真又可扩——少数心智用语言思考,价格用数学形成。
目标价格在预测时根本不存在 → 没有 lookahead、没有训练数据污染。每个 agent 的信念按意见动力学更新:
同一个零泄露前向测试里,三种方法各自打分。我们预期接近抛硬币——价值在这套诚实的检验装置本身,以及它能量出 AI 群体有没有未被污染的真实 edge。样本还极小,要几十个交易日才有统计意义。
上表是 06-02→06-03 那一天的明细(全市场普跌,模型整体偏空、猜对 3 个看空的)。早期信号有意思:「市场出清」方向命中 80%,压过「群体共识」56% 和基准 60%——价格形成可能比观点平均更接近真相。但 n 太小、命中率 CI 仍横跨 50%,统计上还不显著。数字每个交易日自动更新——进探索蜂巢看实时的。