腾讯AI还有一张暗牌

资讯 » 科技头条 2026-04-08

“明牌秀肌肉,暗牌亮底牌。一个是产品生态的广度,一个是工程基础设施的深度。”

撰文|司晓柏

编辑|翟文婷

腾讯AI刚打完一手明牌。元宝、龙虾特工队、养虾全景图,产品矩阵铺到桌面上,生态布局画得清清楚楚。

但明牌底下还压着一张暗牌。

3月27日,腾讯云上海峰会。MiniMax的Agent首席架构师阿岛讲了一个训练困境——大模型的强化学习撞上了沙箱瓶颈,十万级并发环境在K8S上根本跑不动。同一场峰会,汤道生丢出一句判断:「AI落地不只是一道算法题,更是一道工程题。」

一个是大模型公司技术同学的切肤之痛,一个是大厂掌门人的战略洞察。两个人从不同方向,撞进了同一件事——它不在任何产品发布清单上,藏在底层:十万级并发沙箱、百毫秒级启动、两群工程师在行业还没反应过来之前,悄悄把基础设施推到了下一个属于Agent的时代。

这才是那张名为「工程」的暗牌。

01 白板上的四个字

2022年初,MiniMax还没有这个名字。创始人闫俊杰在一间简陋办公室的白板上写下「下一代AI」。彼时GPT-3刚发布不久,ChatGPT要再等一年,「AGI」这个词还没几个人聊。四年后的2026年1月,MiniMax港交所上市,首日涨幅达到109%,市值突破1000亿港元。

但阿岛——缪宇航,公司内部都这么叫他——站在峰会台上翻出这张白板老照片时,讲的不是上市的事。

他反复说的是一个技术困境:模型训练的底层逻辑变了。模型不再是做完一道题就交卷——它得在真实环境里操作文件、写代码、调用工具、处理异常,每次试错都要一个独立运行环境。当需求膨胀到十万级并发,云计算的底层架构被撞出了裂缝。

02 K8S撑不住了

大模型过去靠经典强化学习变聪明——给个问题,生成回答,打分,更新参数。但到了2025年下半年,天花板肉眼可见了。模型在封闭环境里「做题」已经很强,一放到真实世界立刻大打折扣——没有持久状态,每次对话都是全新开始;只能写代码不能跑代码,缺少「写→跑→看→修」的自我验证循环;无法获取实时知识,也无法搭建真实的工作环境。

说到底,裸模型像一台空转的引擎,引擎本身不是汽车。MiniMax从M2.5版本开始押另一条路:Agentic RL(基于强化学习的智能体训练)——直接把模型扔进真实操作系统环境里干活。走通了,能力质变。但它需要全新的训练基础设施。

但是,以前我们可能只是让AI写一段话,或者处理一个简单的函数,但随着Agent的到来,我们现在要求AI去修理一辆正在跑的超级大卡车,或者是从头造出一台能用的iPhone。这意味着在Agent时代,模型面对的训练任务是地狱级的。

每个训练任务可能推演(Roll out)出上百条尝试路径(Trajectory),每条路径都需要一个独立的沙箱环境。面对成千上万个用户请求(Query),每个请求都要同时开启上百个沙箱并发运行。

阿岛说了句大实话:「一开始我们在K8S上跑。然后发现真的不行,并发完全起不来。」K8S——Kubernetes,现代云计算事实上的调度标准。但这套为微服务时代设计的系统,面对Agent训练动辄几万个沙箱同时拉起的场景,扛不住了。

腾讯云Agent Runtime产品副总经理于广游(Gary)捅破了一层窗户纸:「每一个大模型企业内部,训练沙箱基础设施面临两大困境。第一,它是CPU的,不是GPU的,所以很难发论文。第二,搞K8S那群人看到你竟然要拉master(指向K8S系统核心频繁索要资源)拉几千下几万下,把我拉垮了,第一反应是——你能不能不要拉这么多。」

这种高频、海量的调度需求,正是目前大模型落地工程中最隐形、也最头疼的「摩擦力」,它直接卡住了模型迭代的脖子。

偏偏MiniMax一个月发一个模型版本,国内可能唯一做到这个频率的,全球只有OpenAI保持类似节奏。算一笔账:Agentic RL训练时,GPU集群等沙箱启动的每一秒都在空转烧钱。十万个并发沙箱,启动要几分钟,累积等待可能吞掉数小时甚至数天的GPU算力。

沙箱慢一天,模型落后一天。「现在的竞争就是这么激烈。」

03 百万级吞吐怎么来的

问题摆在那里,MiniMax和腾讯云很快走到了一起。

2026年3月18日,双方宣布合作:基于腾讯云Agent Runtime沙箱产品,MiniMax部署了百万级吞吐、十万级并发的Agent RL沙箱,测试环境全量平稳运行。阿岛说:「据我们所知,这是国内最大的训练沙箱系统之一。」Gary说,规模比同行高出至少一个数量级。

效果最直观的数字是启动速度——从几分钟压到百毫秒级,快了数倍。前面那笔GPU空转的账,直接被压缩了一个量级。

撑住这个规模,腾讯云在底层做了大量累活。计算层:调度优化、内核锁优化、快照技术、内存映射。存储层:专门开发了加速存储方案。Gary打了个比方——「过去需要买一块云盘,现在可以理解成买一个镜像盘或者沙箱盘,磁盘本身就是镜像本身。」

他指出,大家现在都在尝试用「旧瓶装新酒」,但这两个旧瓶子(K8S和Serverless)的设计初衷,刚好和Agent的性格完全相反:把Agent想象成一个有记忆、要长时间闭关思考的专家,但K8S按照惯例把给Agent关掉重启,Agent就会瞬间失忆,Serverless(无服务器计算)就像是频繁开关的「声控灯」,但正在「写论文」的Agent却需要灯光长亮。

这就是为什么腾讯云要给Agent造一个新的流水线。Gary强调,「这些不是因为我们比别人更聪明,而是我们真正认识到这里的问题跟价值」。

对于Agent需要怎样的训练设施,业内还有一个容易被忽视的区别:大多数AI公司解决沙箱问题的思路是在本地搭环境——进程跑在自己机器上,安全靠手动确认,电脑一关任务就断。

腾讯云走的是另一条路:把整个Harness拆成「控制面+执行面」的云原生架构。控制面做编排、权限、审计;执行面就是Agent Runtime沙箱,每个任务跑在独立的云端隔离环境里,毫秒级启动,用完即焚,任务状态持久化存储,沙箱销毁了也能从断点恢复。一个是「带安全带的智能终端」,一个是「带监控和隔离舱的云工厂」——对企业场景来说,安全、协作、弹性缺一不可,后者才是生产级方案。

04 同一堵墙

汤道生的判断干脆利落——主流大模型推理能力都不差了,国内开源跟海外闭源的差距在收窄。比拼重心正在转移:不是「谁的模型更强」,是谁能通过工程化手段把模型用好。

他在峰会上把「工程题」拆得很细:模型要真正落地,需要工具调用能力、需要上下文管理、需要长记忆、需要安全的执行环境、需要工作流编排——这些东西加在一起,他用了一个词概括:Harness,模型的「脚手架」。汤道生的意思很明确,腾讯云要做的不是卖算力,而是帮企业把这套脚手架搭起来。

行业正在形成一个共识性公式:Agent = Model + Harness。Model负责「想」,Harness负责让智能变得「有用」——工具调用、代码执行沙箱、上下文工程、长记忆管理、工作流编排,一整套系统工程。模型决定能力下限,Harness决定能力上限。有实践数据可以佐证:花三个月调Prompt,质量提升20%;花两周搭Harness,任务完成率从35%飙到82%。

这不是腾讯一家的发现。

2026年2月,HashiCorp联合创始人Mitchell Hashimoto正式提出「Harness Engineering」。几乎同期,OpenAI做了一个激进实验——3名工程师,5个月,100万行代码,零行人工代码,人类只管设计Harness。Anthropic、LangChain也摸到了类似结论。

全世界最顶尖的工程大脑,在不同时区同时碰到了同一堵墙:模型的能力天花板还远,但工程框架的地板才决定实际效果。行业的关注点正在从「Prompt工程」转向「上下文工程」——不再只是「怎么写指令」,而是「如何构建模型看到的全部信息体系」。

阿岛把这变成了一个画面:「就像一辆F1赛车,我们去开,能顺利开回来就不错了。但真正的赛车手能刷出世界纪录。今天Agent也是同样的——我们能不能为它打造企业级的F1车身,也就是Harness?」

MiniMax的实践印证了这一点。MiniMax M2.7 正式开启模型的自我进化,AI深度参与了模型的训练,强化学习中50%-70%的工作由Agent自主完成。人类研究员的角色变了,变成跟Agent聊实验idea。

但前提是:沙箱够快、够稳、够大。Harness是一套系统工程,包含文件系统、代码执行、记忆、搜索、上下文管理、编排六大组件——而沙箱是其中最底层的那一块,所有上层能力都建立在「模型能不能真正在一个环境里跑起来」这个前提之上。否则再精巧的Harness设计,也卡在最不起眼的环节上。汤道生那句「AI落地是一道工程题」,说的不只是Harness设计,更是底层基础设施的硬功夫。

05 两群工程师的气味相投

阿岛在峰会上放了那张MiniMax Day 1的白板照片。「成立的Day 1就有腾讯云提供支持。那时候我们还是名不见经传的小公司,腾讯云并没有因为我们小就怠慢,和我们一起搭建了训练算力集群,一起服务了第一个爆款产品。」

四年,合作从算力集群到Agent RL沙箱、全球合规、上层应用接入。阿岛说腾讯云「非常技术驱动,思维也非常agent first」。听着像客套,但对照实际发生的事看,它指向一种具体的行为模式:遇到问题,不绕路,不等标准,先把手弄脏。

K8S跑不动,就一起从头设计专用沙箱。行业还没认识到Agent基础设施的价值,就自己先投进去。这种默契是项目里做出来的,不是会议室里谈出来的。

MiniMax模型开源,腾讯云通过TokenHub分发模型服务。阿岛说:「哪怕已经上市了,我们仍然是一家只有几百人的小公司,不可能服务那么多大客户。」腾讯云帮他把模型送到更多客户手里;MiniMax那些极端的训练需求,也在倒逼腾讯云向Agent时代进化。

而MiniMax不是唯一一个撞上这堵墙的。任何一家认真做Agentic RL的公司,迟早都会遇到同样的沙箱瓶颈。区别只在于,有没有人先把路趟出来。

Gary说:「我们是在两个时代的临界点上,一起携手。」阿岛的表述类似:「一个新时代对旧时代的——其实我们是在一边的。」

06 那张暗牌

MiniMax的M2.7在AA大模型榜单国产模型排名第一,跟Claude在SWE-bench Verified上差距只剩0.6%。

阿岛判断:「再过一两年能留在牌桌上的公司可能不超过5家。」靠什么留?衡量这个时代工程师的水平,基本上看一个指标——他同时能并发多少个Agent为他工作,他每天能燃烧多少Token。

这个指标适用于个人,也适用于公司。训练效率真正的瓶颈,不在GPU——在沙箱。

汤道生在上海峰会上还宣布了腾讯云底层平台Cube全面开源,企业可直接用于智能体训练和部署。这实际上就是腾讯回应「沙箱困境」的其中一个解法,通过开源,让大模型的脚手架更好用。

腾讯已经把AI的明牌摊在桌上——产品矩阵、生态全景图、IM入口、Skill工具箱,面向用户,展示得明明白白。Cube开源则是另一种姿态,面向的不是用户,是盟友。不是「看我们有什么」,是「这些能力你们拿去用。」

明牌秀肌肉,暗牌亮底牌。一个是产品生态的广度,一个是工程基础设施的深度。

汤道生那句话,「AI落地是一道工程题」,或许还可以再加半句:工程题的解法,从来不是一个人闷头做的。

四年前那块白板上写着「下一代AI」。四年了,字没变。写字的人,多了几个。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。