零泄露 · 前向验证 · 每日自动

每天,让 750 个 AI 交易员
预测明天。
第二天用真实数据打分。

每个交易日,150 个独一无二的 LLM agent × 5 只股票读当天真实行情与新闻,各自推理出对次日的判断,汇成一个带波动率校准区间的预测。第二天,用真实收盘评分。预测的目标在做出时根本不存在——所以没有 lookahead,也没有训练数据污染。这是检验「AI 群体到底有没有真实 edge」唯一诚实的方法。

探索蜂巢 · 看每个 agent → 为什么这么做
750/天
LLM agent 推理
5
只股票 · 每日滚动
0
lookahead / 泄露
T+1
次日真实数据评分
为什么 · Why

世界不需要又一个「回测很赚」的 AI 交易模型

因为几乎所有 AI 交易研究都犯同一个错——而这个项目存在,就是为了不犯它。

? 问题

回测在骗你

LLM 有训练截止日。让它「预测」2024 年的 AAPL,它很可能记得当时真实发生了什么——这不是预测,是泄题

于是几乎所有「AI 选股回测很赚」的结论都被训练数据污染,分不清是真 edge 还是在背答案

我们的回答

只测未来,不测过去

唯一诚实的检验:预测一个做出时还根本不存在的未来交易日,第二天再用真实收盘对账。

目标价格在预测时不存在 → 没有 lookahead、没有训练数据污染。剩下的命中率,才是可信的。

"别问『回测能赚多少』。问『把训练数据里的答案抹掉之后,它还剩多少』。"

— 这个项目的全部立场
如何运作 · The Daily Loop

一条命令,每个交易日自动跑一次

先给到期的旧预测拉真实收盘评分,再做今天的新预测。两步之间隔着一整夜——目标价格在预测时还不存在,泄露从结构上被堵死。

真实数据价格·指标·新闻 ≤今日 150 异质 agent分层信息·各自推理 影响力网络羊群/逆向 涌现 集合竞价撮合供需交叉=出清 涌现价格 T+1分布+95%CI 次日打分vs真实·vs基准 ⟂ 隔夜 · 目标此刻不存在 全链自动跑 · 零 lookahead · 零训练数据污染 · 可复现
01

读真实世界

每只股票拉当天的 live 行情、技术指标、GDELT 新闻头条——全部 ≤ 今天。

02

150 个大脑各自想

每个 agent 是独一无二的 persona(资本、时间尺度、风险、逆向性各异),用语言独立推出自己的多空判断。

03

群体涌现

agent 沿带符号的影响力网络相互带动——羊群与逆向在数学上涌现,不是脚本写死的。

04

聚合成预测

按资本 × 影响力 × 时间尺度加权,得出次日预期收益 + 锚定真实波动率的 95% 区间。

05

第二天评分

用真实收盘对比:方向命中?落在区间内?误差多少?记入永久、可复现的战绩。

价格形成 · Price emerges from order flow

价格不是投票投出来的,是撮合撮出来的

大多数"AI 群体预测"把每个 agent 的观点加权平均成一个数。但真实市场里没人在算平均——每个人下单,订单簿撮合,价格从供需交叉处涌现

每个 agent → 一张限价单

多头买、空头卖

有资本的 agent 把判断变成订单:多头是买方(愿付到自己的保留价)、空头是卖方。下单量 ∝ √资本 × 信念——机构主导价格冲击,但不绝对碾压人群。经济学家只发声、不下单。

供需曲线交叉

出清价 = 涌现价

一轮集合竞价找到供需相等、成交量最大的那个价。再加一层做市商/指数被动流动性给订单簿深度。涌现收益 = 出清价 / 今收 − 1。它对保留价的分布敏感,不是均值——一撮激进卖方就能把价格钉住。

三个预测器同台

谁更准,数据说

同一个零泄露前向测试里,群体共识(加权平均)、市场出清(#3 涌现)、非 LLM 基准三者分别打分。到底是"平均观点"还是"撮合价格"更接近明天,让命中率自己回答。

架构 / 原理 · How it actually works

少数语言推理,海量数学动力学,撮合出一个涌现的价格

不是"一个聪明模型猜数字",而是一个分层的市场世界模型:语言模型负责"想",社会动力学和撮合负责"形成价格",前向打分负责"验证"。

L1数据层
point-in-time 的 live 行情 / 技术指标 / GDELT 新闻,严格 ≤ 当日。所有信息带时间戳,杜绝未来泄露。
L2认知层
150 个异质 LLM agent,分层信息:散户只看价格+新闻,机构再加基本面+量化先验。每个用语言独立推出多空判断——没有两个一样。
L3社会层
有符号影响力网络:agent 沿"谁带动谁"相互影响,羊群与逆向涌现(意见动力学),而非脚本写死。
L4定价层
把判断变成限价单,一轮集合竞价撮合,价格从供需交叉涌现(资本加权、对分布敏感)——不是观点平均。
L5评估层
次日 live 打分:群体共识 vs 市场出清 vs 时序基准三者对照,方向命中率带 Wilson 置信区间与显著性标注。

少数大脑 + 群体数学

语言模型负责语言、因果、异质判断(贵,所以只用 150 个真推理);撮合与意见动力学负责定价(便宜,纯数学、可扩展)。既真又可扩——少数心智用语言思考,价格用数学形成。

前向 = 诚实

目标价格在预测时根本不存在 → 没有 lookahead、没有训练数据污染。每个 agent 的信念按意见动力学更新:

belief_i(t+1) = clip[ α·belief_i + β·Σ w_ij·belief_j + γ·price + δ·news ]
战绩 · 三个预测器同台

群体共识 vs 市场出清 vs 时序基准,谁更准?

同一个零泄露前向测试里,三种方法各自打分。我们预期接近抛硬币——价值在这套诚实的检验装置本身,以及它能量出 AI 群体有没有未被污染的真实 edge。样本还极小,要几十个交易日才有统计意义。

overall · walk-forward ⚠ 仅 ~10 个观测 · 命中率 CI 仍横跨 50% = 抛硬币
56%
群体共识 命中
80%
市场出清 #3 命中
60%
时序基准 命中
100%
落入 95% 区间
股票预测 (06-02→06-03)实际方向
AAPL−0.41% 空−1.57%
AMZN−0.30% 空−2.53%
GOOGL−0.24% 空−0.79%
MSFT+0.14% 多−3.17%
NVDA+0.12% 多−3.62%

上表是 06-02→06-03 那一天的明细(全市场普跌,模型整体偏空、猜对 3 个看空的)。早期信号有意思:「市场出清」方向命中 80%,压过「群体共识」56% 和基准 60%——价格形成可能比观点平均更接近真相。但 n 太小、命中率 CI 仍横跨 50%,统计上还不显著。数字每个交易日自动更新——进探索蜂巢看实时的