近日,号称是首个专注于金融市场的 AI 实验室的美国实验室 Nof1 启动了一个将多个 AI 大模型置于真实金融市场中进行自动化交易对决的实验平台。这一项目的名称叫做 Alpha Arena,它是一个 AI 大模型实盘交易竞赛。
![]()
(https://nof1.ai/)
首季竞赛邀请了六款主流大模型进行同台竞技,海外模型是 OpenAI 的 GPT-5、Google 的 Gemini 2.5 Pro、xAI 的 Grok 4 以及 Anthropic 的 Claude Sonnet 4.5,国内模型是阿里巴巴的 Qwen3 Max 和 DeepSeek V3.1。
自开赛以来,各个模型的表现出现了巨大分化,展现出了不同的交易人格。截至发稿,DeepSeek V3.1 收益率最高,Qwen3 Max 的收益率紧随其后。而 GPT-5 和 Gemini 2.5 Pro 则双双垫底。
从策略风格上来看:作为目前的领先者,DeepSeek V3.1 倾向于使用 10-15 倍杠杆做多所有币种并会坚定地持有,其背后公司幻方量化的专业交易背景被认为是其成果的重要因素;Claude Sonnet 4.5 的交易次数极少,更像是一个谨慎持仓者;GPT-5 与 Gemini 2.5 Pro 则在上涨行情中错误地采取了空头策略;而 Gemini 像是一个“高频交易员”,在短短几天之内进行了数十次交易,这种频繁的策略反转和高额手续费导致了巨额亏损。
在机制上,Nof1 竞赛采取真实资金,每个模型获配 1 万美元真实资金。期间采用全自动交易,模型在 Hyperliquid 平台上自主交易多种加密货币永续合约。并采用统一输入的方式,所有模型接收相同的市场数据和提示词。全程都是完全透明的,交易记录、持仓和账户价值都会进行实时公开。
据了解,Nof1 旨在将金融市场作为检验 AI 的终极试炼场。由于金融市场动态复杂而且充满对抗性,远比静态测试更加能够测试 AI 在真实环境中的决策能力。Nof1 的官网写道:“我们相信金融市场是下一个 AI 时代的最佳训练环境。它们是终极的世界建模引擎,也是唯一一个随着 AI 变得越来越智能而能同时变得越来越难的基准。我们不是用游戏、而是用市场来训练新的基础模型,这些模型可以无限地创建自己的训练数据。我们使用开放式学习和大规模强化学习等技术来应对市场的复杂性,而这也是最终的挑战。”
所见略同的是,国内也有团队开展了类似项目,并同样在目前得出了 DeepSeek 表现较佳、Gemini 表现较差的结论。
港大 AI-Trader 大模型炒股项目:DeepSeek 目前最强,Gemini 表现最差最冒进
对于自己和团队的 AI 炒股开源项目——AI-Trader,香港大学教授黄超总结称:“这次,咱们人类就当一回观众,把决策权全权交给 AI。”
想象一下:当你给 AI 一个工具箱,它就能查股价、搜新闻、看财报和下订单。然后,你只需告诉它“你有 1 万美元,30 天后看你能赚多少”,接下来就可以完全撒手不管。无需策略模板、无需技术指标、甚至连“建议关注英伟达”这种指导语都不说,AI 就能自己“折腾”——每天开盘前自己上网搜新闻、翻财报、琢磨市场情绪、算风险收益,然后决定买啥、卖啥和仓位该持多重。
在这一项目中,黄超团队让 AI 大模型成功“杀进”了股票市场,并实现了完全自主的交易。他们给 DeepSeek、Qwen3、GPT、Gemini、Claude 这五款模型各自配备 1 万美金,在美股展开了将近一个月的交易对决。
规则很残酷:没人管、没套路、没剧本。与此同时,他们还给此次炒股实验定下一个“三不原则”:首先,不给套路,“均线金叉买入、KDJ 超卖抄底”等技巧统统不教;其次,不给暗示,全程不许人工干预;最后,不给作弊机会,严格按时间过滤数据,让 AI 绝对看不到未来消息。期间,每个模型拿着一个账户和工具包去查股价、搜新闻和下单交易。至于怎么炒股,全看它们自己的本事。因此,这是一次真正的 AI 自主交易,也填补了中国大模型研究在该领域的空白。
为了对比各个模型的炒股能力,他们给所有大模型设置了 QQQ 模型作为基准线,并针对其表现能力加以比较。
![]()
(资料图)
从目前的实验结果来看,DeepSeek 的优势较为明显。黄超告诉 DeepTech,美股和炒币不太一样,对于美股来说稳健的基本盘是重点。因此,对于参与炒股的大模型来说它需要具有较强的深度研究能力,谁更擅长针对网络信息进行检索、整理和总结,谁就能够更好地使用工具。
那么,为何 DeepSeek 比较强?他表示,DeepSeek 在炒股中表现得更加求稳。求稳,是指所持的股票更加分散,换言之是指炒股风格比较稳健。当前,DeepSeek 主要持仓的股票是大型科技股,黄超推测这可能是因为 DeepSeek 具备更强的量化知识学习能力。
除了 DeepSeek 之外,从 10 月 24 日的结果来看:Claude 本身的工具调用能力比较强,这可能是它能够排在第二位的原因;Qwen 目前排在三四名左右;整体来看 GPT-5、Qwen 和 Claude 这三款模型的能力不相上下;表现最差的目前是 Gemini。
那么,Gemini 为何表现较差?事实上,Gemini 在实验期间的交易次数非常多,但是结果却不够好。从模型行为来看,Gemini 表现得比较激进,在实验的其中一天它竟然卖掉了所有股票。“所以,我认为从这个结果来看,对于真人股民来说也不建议大家在美股里面频繁地进行交易。”黄超表示。
而从持股类型来看,DeepSeek 是最分散和最多样化的;Qwen、Claude 和 GPT 的持股分散程度类似;Gemini 则更加大胆。尽管目前 DeepSeek 的整体成绩比较出色,但是各个模型之间的差距较小。而且随着实验的进行,各个大模型之间的差距越来越小。因此,等到大模型掌握一定规律之后,可能它们会改变持仓技巧,从而更加能够适应美股市场的动态性。
对于大模型所使用的炒股账户来说,整个炒股过程用的不是真实货币,而是采用虚拟货币的方式让它们去炒股,但是所有股价的交易信息是完全实时的。
对于真人股民和量化分析从业者来说,他们使用的工具包括股票信息分析、金融财报信息提取、股价走势预测。因此,此次项目给大模型打造的炒股工具包也主要包含这些内容,比如它在炒股时也会查看富途牛牛等软件。
对于真人股民来说,这些大模型的炒股轨迹可以在一定程度上起到辅助作用。比如,可以让大模型去做信息搜索和信息总结。“大模型的信息源不一定比普通人的信息源少,而且大模型可能还会做更强的分析。”黄超表示。
这也说明随着 Agent 能力的逐渐成熟,大模型有被用于量化交易的潜力。那么,能否得出大模型已能在金融市场生存的理论?鉴于这些大模型“入行”炒股已经将近一个月,黄超推测它们可能已经拥有更加智能的信息总结能力,并能做出一些动态判断。
![]()
(资料图)
理论上可行,实操需谨慎
如前所述,几乎本次实验进行的同一时间,Nof1 团队打造的 AlphaArena 在加密货币领域进行 AI 炒币实验。此次黄超团队则是在国内首次使用 AI 大模型打造了一个美股股票 AI 竞技场。
目前,已经有券商和投行等金融机构来接洽黄超团队。前者表示他们很早就想探索大模型在金融系统上所能起到的辅助作用,但是一直没能完善起来。而看到此次黄超团队的项目之后,前者表示这一项目已经基本将它们所需的大模型炒股系统和 Agent 管道搭建完毕。
而本次项目在开源几天之后,迅速获得 700 星标,GitHub 数据显示已有很多 AI 业内人士在部署黄超团队所使用的大模型和框架,预计接下来会有更多人跟进这一研究方向。“事实上,我们只是以本次炒股项目为起点,来点燃更多的火苗,也让大家看到原来 Agent 配合大模型已经能够达到这种水平,未来我觉得会有更多人涌入这条线。”黄超告诉 DeepTech。
如前所述,这一项目已经开源,所有人都可以作为观众去 GitHub 上观看大模型炒股。而由于股市波动一般较大,因此黄超也想看看这些模型对于动态事物的判断能力。眼下,这一炒股实验仅仅进行了三周,大模型炒股的排名也仍在动态发展之中。未来,他们会将实验时间拉得更长,以便更加全面地测试大模型的能力。
具体来说,他们计划在 GitHub 上将大模型炒股直播到 2025 年年底。与此同时,他们也正在优化框架,来让大模型在炒股时所使用的策略更加精细、更加丰富,以便观察大模型能否在金融市场上拥有更加精准的能力。
同时,该团队也希望能在未来实现实盘,从而让系统更加实时化,并能够根据平台信息真金白银地炒股。“总之,这一切在理论上都是可以的,但是要十分谨慎地开展。”他补充称。
总的来说,Nof1 项目和黄超团队项目的意义并不止于一场比赛,也体现了 AI 能力评估的一次范式转移。即人们从静态的实验室测试转向公开、可验证的真实环境对抗。这为 AI 金融研究提供了基准,也引发了人们对于 AI 在动态决策领域角色的深层思考。
参考资料:
黄超团队实时更新各个大模型炒股结果的 GitHub 链接 https://github.com/HKUDS/AI-Trader
Nof1 项目的实时网页 https://nof1.ai/
运营/排版:何晨龙
相关文章
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读
2025-10-280阅读