Hivemind Forward — 每天预测明天，第二天用真实数据打分

为什么 · Why

世界不需要又一个「回测很赚」的 AI 交易模型

因为几乎所有 AI 交易研究都犯同一个错——而这个项目存在,就是为了不犯它。

? 问题

回测在骗你

LLM 有训练截止日。让它「预测」2024 年的 AAPL,它很可能记得当时真实发生了什么——这不是预测,是泄题。

于是几乎所有「AI 选股回测很赚」的结论都被训练数据污染,分不清是真 edge 还是在背答案。

✓ 我们的回答

只测未来,不测过去

唯一诚实的检验:预测一个做出时还根本不存在的未来交易日,第二天再用真实收盘对账。

目标价格在预测时不存在 → 没有 lookahead、没有训练数据污染。剩下的命中率,才是可信的。

"别问『回测能赚多少』。问『把训练数据里的答案抹掉之后,它还剩多少』。"

— 这个项目的全部立场

如何运作 · The Daily Loop

一条命令，每个交易日自动跑一次

先给到期的旧预测拉真实收盘评分，再做今天的新预测。两步之间隔着一整夜——目标价格在预测时还不存在，泄露从结构上被堵死。

01

读真实世界

每只股票拉当天的 live 行情、技术指标、GDELT 新闻头条——全部 ≤ 今天。

02

150 个大脑各自想

每个 agent 是独一无二的 persona（资本、时间尺度、风险、逆向性各异），用语言独立推出自己的多空判断。

03

群体涌现

agent 沿带符号的影响力网络相互带动——羊群与逆向在数学上涌现，不是脚本写死的。

04

聚合成预测

按资本 × 影响力 × 时间尺度加权，得出次日预期收益 + 锚定真实波动率的 95% 区间。

05

第二天评分

用真实收盘对比：方向命中？落在区间内？误差多少？记入永久、可复现的战绩。

价格形成 · Price emerges from order flow

价格不是投票投出来的,是撮合撮出来的

大多数"AI 群体预测"把每个 agent 的观点加权平均成一个数。但真实市场里没人在算平均——每个人下单,订单簿撮合,价格从供需交叉处涌现。

▤ 每个 agent → 一张限价单

多头买、空头卖

有资本的 agent 把判断变成订单:多头是买方(愿付到自己的保留价)、空头是卖方。下单量 ∝ √资本 × 信念——机构主导价格冲击,但不绝对碾压人群。经济学家只发声、不下单。

✕ 供需曲线交叉

出清价 = 涌现价

一轮集合竞价找到供需相等、成交量最大的那个价。再加一层做市商/指数被动流动性给订单簿深度。涌现收益 = 出清价 / 今收 − 1。它对保留价的分布敏感,不是均值——一撮激进卖方就能把价格钉住。

⊞ 三个预测器同台

谁更准,数据说

同一个零泄露前向测试里,群体共识(加权平均)、市场出清(#3 涌现)、非 LLM 基准三者分别打分。到底是"平均观点"还是"撮合价格"更接近明天,让命中率自己回答。

看订单簿撮合 →

架构 / 原理 · How it actually works

少数语言推理,海量数学动力学,撮合出一个涌现的价格

不是"一个聪明模型猜数字",而是一个分层的市场世界模型:语言模型负责"想",社会动力学和撮合负责"形成价格",前向打分负责"验证"。

L1数据层

point-in-time 的 live 行情 / 技术指标 / GDELT 新闻,严格 ≤ 当日。所有信息带时间戳,杜绝未来泄露。

L2认知层

150 个异质 LLM agent,分层信息:散户只看价格+新闻,机构再加基本面+量化先验。每个用语言独立推出多空判断——没有两个一样。

L3社会层

有符号影响力网络:agent 沿"谁带动谁"相互影响,羊群与逆向涌现(意见动力学),而非脚本写死。

L4定价层

把判断变成限价单,一轮集合竞价撮合,价格从供需交叉涌现(资本加权、对分布敏感)——不是观点平均。

L5评估层

次日 live 打分:群体共识 vs 市场出清 vs 时序基准三者对照,方向命中率带 Wilson 置信区间与显著性标注。

少数大脑 + 群体数学

语言模型负责语言、因果、异质判断(贵,所以只用 150 个真推理);撮合与意见动力学负责定价(便宜,纯数学、可扩展)。既真又可扩——少数心智用语言思考,价格用数学形成。

前向 = 诚实

目标价格在预测时根本不存在 → 没有 lookahead、没有训练数据污染。每个 agent 的信念按意见动力学更新:

belief_i(t+1) = clip[ α·belief_i + β·Σ w_ij·belief_j + γ·price + δ·news ]

战绩 · 三个预测器同台

群体共识 vs 市场出清 vs 时序基准,谁更准?

同一个零泄露前向测试里,三种方法各自打分。我们预期接近抛硬币——价值在这套诚实的检验装置本身,以及它能量出 AI 群体有没有未被污染的真实 edge。样本还极小,要几十个交易日才有统计意义。

overall · walk-forward ⚠ 仅 ~10 个观测 · 命中率 CI 仍横跨 50% = 抛硬币

56%

群体共识命中

80%

市场出清 #3 命中

60%

时序基准命中

100%

落入 95% 区间

股票预测 (06-02→06-03)实际方向

AAPL−0.41% 空−1.57%✓

AMZN−0.30% 空−2.53%✓

GOOGL−0.24% 空−0.79%✓

MSFT+0.14% 多−3.17%✗

NVDA+0.12% 多−3.62%✗

上表是 06-02→06-03 那一天的明细(全市场普跌,模型整体偏空、猜对 3 个看空的)。早期信号有意思:「市场出清」方向命中 80%,压过「群体共识」56% 和基准 60%——价格形成可能比观点平均更接近真相。但 n 太小、命中率 CI 仍横跨 50%,统计上还不显著。数字每个交易日自动更新——进探索蜂巢看实时的。