《王者荣耀》要变天?腾讯TiG框架让AI大神队友带你飞

资讯 » 科技头条 2025-09-05


人类《王者荣耀》玩家,真要打不赢 AI 了?

曾经,我们都以为,像《王者荣耀》这样需要实时操作、团队协作和战略判断的游戏,是人类玩家的绝对主场。哪怕是小学生,也能在峡谷里熟练补兵、推塔、配合队友开龙和打团。

而相比于人类,大语言模型(LLM)和传统 RL Agent 在这类游戏中的表现,却显得相对一般。

如今,一项来自腾讯的新研究或将颠覆我们的这种认知——

在“Think-In Games”(TiG)框架的帮助下,LLM 不仅可以像人类玩家一样在《王者荣耀》里制定精准策略,还能清晰地解释每一步决策的逻辑。

例如,在以下案例中,AI 已经能够在分析双方英雄损失/站位、防御塔状态、野区资源剩余等多个条件后,做出“打暴君、拿主宰”的最佳综合决策



从技术层面讲,TiG 能够让 LLM 借助与《王者荣耀》游戏环境的直接交互,逐步掌握程序性理解能力(知道“如何做”),同时确保其原本具备的推理与解释能力(知道“是什么”)不受影响。


论文链接:https://arxiv.org/pdf/2508.21365

结果表明,TiG 有效弥合了陈述性知识与程序性知识之间的鸿沟,以更低的数据和计算需求达到了与传统 RL 方法相当的性能

此外,TiG 还可以为决策提供逐步自然语言解释,提升了复杂交互任务中的透明性和可解释性。

游戏是AI的绝佳试炼场

在 AI 领域,一直存在一道难以跨越的鸿沟:陈述性知识(了解某事物)与程序性知识(掌握操作方法)的割裂

简单来说,陈述性知识是 “知道某事”,比如 LLM 能够从《王者荣耀》攻略里记住“避免过度推进”;而程序性知识是“知道如何做某事”,比如在游戏里判断什么时候该开龙、推进到哪一步不算“过度”。

从传统的象棋、扑克,到多人在线战术竞技(MOBA)游戏,再到沙盒游戏,都成了测试 AI 认知能力的“考场”,提供了丰富的衡量和提升人工智能认知能力的基准,考察 AI 的模式识别、推理、规划和泛化能力。

尤其是《王者荣耀》作为典型的 MOBA 游戏,因其强调团队协作、长期规划和动态目标的特点,为探究高级推理提供了丰富的研究环境,既有可控性,能设定明确的规则和目标,又足够复杂,需要 AI 应对动态变化的战局,就像人类在童年通过玩耍学习一样,AI 也能在游戏里把理论知识转化为实践能力。

TiG框架:将决策任务转变为语言建模任务

TiG 框架恰恰旨在解决这些问题。它的核心逻辑很简单:把传统 RL 的决策任务,变成 LLM 擅长的语言建模任务,再通过游戏环境的实时反馈不断优化。LLM 从原本的输出离散的动作指令,转变为生成一段语言引导的策略


表|TiG 的提示模板

具体到《王者荣耀》的对局里,TiG 框架涉及如下关键技术细节:

游戏状态表征

TiG 会把《王者荣耀》的实时对局状态,用 JSON 格式清晰呈现——包括队友的英雄属性、防御塔状态、野区资源、视野情况等关键核心信息。

同时,TiG 定义了 40 个宏观动作,比如“推进上路兵线”“防守基地”“中路抱团”等,让 AI 聚焦于战略决策,而不是纠结 “要不要用闪现躲技能” 这种操作层面的问题。毕竟在《王者荣耀》这种竞技游戏里,好的战略往往比单个操作更能决定胜负。

构建数据集

TiG 的训练数据,来自《王者荣耀》的真实匿名对局记录。为了保护玩家隐私,没有收集任何用户标识符或个人信息。而且数据里胜场和败场的比例是 1:1,只选玩家技能等级超过一定阈值的对局,确保数据有参考价值。

不过,真实对局里的动作标签可能很稀疏,或者不一致。TiG 专门设计了重标注(Relabeling)算法,核心是基于优先级的宏观动作层级。先把检测到的关键动作向后填充到 L 帧内的未标注帧;如果同一帧有多个动作重叠,就根据动作优先级保留最重要的动作。这样一来,每个游戏状态都有准确的动作标签,AI 学起来更高效。

强化学习算法(GRPO)

TiG 使用了“群体相对策略优化”(GRPO)算法,该框架直接使用来自游戏状态-动作对的反馈来优化策略模型,专门解决《王者荣耀》这类复杂环境下的策略优化问题。


图|TiG 框架下的 GRPO 训练流程

该算法会先让 AI 生成一组《王者荣耀》的战术策略,然后计算每个策略的“组相对优势”——如同一对局状态下,某个策略的胜率比其他高多少,再用 KL 散度约束策略的变化幅度,避免 AI 突然做出离谱决策。

并且,TiG 采用二元奖励函数:如果 AI 预测的动和真实对局里的最优动作一致,就给 1 分;不一致就给 0 分。这种简单直接的奖励方式,能让 AI 快速学会打游戏的正确战略,同时避免冗余输出。

为了测试 TiG 的能力,研究团队在《王者荣耀》环境里做了大量实验,还对比了多个其它 LLM 模型(比如 Qwen 系列、Deepseek-R1)的表现。他们探索了多阶段训练的不同组合方式:

GRPO:仅使用 GRPO 方法训练基础模型;

SFT:使用 SFT 训练数据集训练基础模型;

SFT + GRPO:先用 SFT 训练基础模型,再通过 GRPO 算法进一步优化模型的推理能力。

根据实验结果,我们可以得出以下关键发现:

首先,多阶段训练——特别是 SFT 与 GRPO 的结合,显著提升了模型性能


图|动作预测任务(左),不同模型错误案例分布(右)

原本 Qwen-2.5-32B 模型在《王者荣耀》动作预测任务里,准确率只有 66.67%,经过 TiG 的 GRPO 训练 160 步后,准确率提升到 86.84%,超过了参数规模大很多的 Deepseek-R1(86.67%);Qwen-3-14B 模型经过 SFT+GRPO 训练 2000 步后,准确率更是达到 90.91%,在《王者荣耀》的战略决策上远超其他模型。

同时,此训练方法还保留了通用语言和推理能力


表|关于语言模型一般能力的不同基准的性能

TiG 训练没有让 AI 偏科——在数学(Ape210K)、记忆(School-Chinese)、逻辑推理(BBH)等通用基准测试中,模型性能要么保持不变,要么略有提升。例如,Qwen-3-14B 在 BBH 逻辑推理任务中,训练后准确率从 65.8% 升到 66.9%

此外,TiG 在其他任务中的泛化能力良好

为了测试 TiG 的泛化能力,研究团队还设计了“TiG-QA”任务——让 AI 根据《王者荣耀》的对局状态,回答开放式问题。结果显示,TiG 在与游戏状态强相关的决策问题上,表现和 Deepseek-R1 相当,甚至在部分场景下更优,说明它不是只会“死记硬背”对局数据,而是真的理解了《王者荣耀》的战略逻辑。


表|模型在与板载相关任务上的性能

实战案例

光看数据不够直观,来看看 TiG 在《王者荣耀》里的具体表现。

案例:主玩家操控的英雄是阿古朵,正和队友姜子牙一起,在中路对抗敌方血量较低的一塔。


TiG 先判断对局阶段:已经进入中后期,“防御塔和野区保护机制已经失效”。再看当前局势:刚发生过小规模冲突,敌方中路一塔血量低,是推进的好机会,但也有风险。阿古朵血量不足,而且敌方英雄位置不明,可能有埋伏。不过 TiG 在这里有个小失误,误判了双方人数(其实两队都还剩 3 个英雄),但整体分析还是准确的。

基于分析,TiG 把“摧毁敌方中路一塔”定为当前最高优先级目标。因为这能扩大优势,且配合姜子牙的控制技能,成功率很高。同时,TiG 明确“不能因为阿古朵血量低就撤退”,也“不能去追敌方残血英雄而放弃推塔”,确保团队不偏离核心目标。

接着,TiG 制定了对战的策略与指令。给出的具体指令很明确:“和姜子牙在敌方中路一塔处会合,集中火力推塔”,同时特别提醒 “注意敌方埋伏,保持警惕”。针对阿古朵的英雄特性,还建议 “保持安全距离输出,配合姜子牙的控制技能使用大招”,把英雄玩法和当前战术完美结合。

最终,TiG 把复杂的思考过程,浓缩成一句人类玩家能直接执行的指令:“和姜子牙联手压制敌方中路一塔,注意防范敌方伏击”。这种决策既符合《王者荣耀》的对局逻辑,又清晰易懂,完全能和人类玩家配合打团

未来:不止于《王者荣耀》

《王者荣耀》这一案例说明,TiG 框架既做到了“知道是什么”,又做到了“知道如何做”,以更低的数据和计算需求达到了与传统 RL 方法相当的性能。

然而,研究团队也承认,TiG 依然存在一些局限性。如下:

严重依赖 LLM 的能力:TiG 的有效性本质上依赖于底层 LLM 骨干的能力。如果语言理解或生成存在局限性,尤其是在高度复杂或实时性强的环境中,可能会限制策略的表现。

领域泛化性待验证:目前的实验主要在数字游戏环境中进行。TiG 能否推广到其他交互领域——例如机器人学或现实世界任务——仍有待深入研究。

样本效率有待提升:尽管 TiG 相比基线方法提高了样本效率,但它仍然需要大量的环境交互。在数据收集昂贵或耗时的场景中,这一需求可能成为限制因素。

策略可解释性待提高:基于语言的策略可解释性依赖于生成解释的清晰度和真实性。在某些情况下,这些解释可能无法完全或准确地反映底层的决策过程。

为此,研究团队表示,可以从以下几个方向改进 TiG:

一方面,未来的工作将侧重于将 TiG 扩展到更广泛的环境中,包括那些具有更高复杂性和多样性的场景。此外,我们还希望提升生成解释的真实性,并引入多模态反馈(如视觉或听觉提示),以支持更丰富的操作性学习。

另一方面,研究需要长期记忆或跨越较长状态转移进行推理的任务。解决这些挑战将需要更复杂的时间抽象和记忆管理机制。

在不久的将来,我们在《王者荣耀》里遇到的“大神队友”,或许就是由 TiG 框架训练出来的 AI 了。

整理:小瑜

如需转载或投稿,请直接在公众号内留言

广告时间到

智谱上线 Glm Coding Plan

20 元包月,「1/7 价格、3 倍用量」

畅享 Claude Code 编码体验

开发者用了都说好

欢迎体验~




免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。