乔治亚理工学院研究团队让机器学习过程变得更快更稳定

资讯 » 科技头条 2025-11-04


说到人工智能的训练,很多人可能会觉得这是一个非常技术性的话题。但是,当我们看到ChatGPT能够回答各种问题、帮助我们解决数学题时,背后其实隐藏着一个非常有趣的学习过程。就在最近,由乔治亚理工学院的王子炎教授和伊利诺伊大学厂-比纳分校的王铮教授领导的研究团队,在2025年10月的arXiv平台上发表了一项突破性研究(论文编号:arXiv:2510.04072v2),这项研究彻底改变了人工智能特别是大语言模型学习推理能力的方式。

回到人工智能学习数学推理的场景。目前,让AI学会解数学题的方法叫做强化学习,其中最流行的一种技术叫做GRPO(Group Relative Policy Optimization,群组相对策略优化)。这就像是让一个学生通过不断练习来提高数学能力一样。但是,现有的GRPO方法有一个很大的问题:在学习的早期阶段,AI经常会产生质量很差的答案,这些糟糕的答案会产生噪音很大的学习信号,就像一个初学者在做练习题时经常出错,而这些错误答案会误导后续的学习方向,导致整个学习过程变得不稳定、效率低下。

研究团队提出的解决方案叫做SFPO(Slow-Fast Policy Optimization,慢-快策略优化)。这是一个非常巧妙的想法,可以用做菜的过程来理解。传统的GRPO就像是按照食谱一步一步做菜,每次只能按照一个步骤来,如果中间有一步做错了,整道菜就可能失败。而SFPO的方法更像是一个经验丰富的厨师:首先,他会快速尝试几种不同的调料搭配(快速轨迹阶段),然后他会退一步,重新评估这些尝试的效果,并调整到一个更合理的位置(重新定位阶段),最后再小心翼翼地完成最后的调味(慢速修正阶段)。

SFPO的核心创新在于将每一个学习步骤分解为三个协调的阶段。在第一个阶段,也就是快速轨迹阶段,AI会对同一批训练数据进行多次快速的内部更新。这就像是一个学生拿到一道数学题后,不是只想一遍就结束,而是快速地尝试多种解题思路。这种做法的好处是,即使某些单独的尝试可能有偏差,但通过多次尝试,整体的方向会变得更加稳定和可靠。

第二个阶段是重新定位阶段,这是SFPO最关键的创新之一。经过快速尝试后,AI可能已经偏离了原始的学习轨道太远,就像一个学生在解题时想得太复杂,反而偏离了正确的思路。这时候,SFPO会引入一个重新定位机制,通过在快速尝试的结果和原始起点之间进行插值,来控制这种偏离程度。这就像是给学生一个机会回到题目的起点,重新审视问题,避免走得太远而迷失方向。

第三个阶段是慢速修正阶段,在重新定位之后,AI会进行一次额外的梯度修正,这就像是学生在找到正确思路后,仔细地完成最后的计算步骤。这个阶段确保了整个学习过程能够与正确的优化轨迹保持一致。

为了更好地理解SFPO的工作原理,我们可以用登山的比喻来解释。传统的GRPO就像是一个登山者每次只能走一步,而且必须严格按照地图指示的方向前进。如果地图上有错误信息,登山者就可能走错路。而SFPO的方法更像是一个经验丰富的登山者:他会先快速探索周围的几个方向,看看哪些路径比较有希望;然后他会回到一个相对安全的位置,综合考虑刚才的探索结果;最后再谨慎地选择一个最佳方向前进。这样的策略显然比单纯按照可能有错误的地图前进要安全和高效得多。

在数学理论层面,研究团队为SFPO的每个阶段都提供了深入的理论解释。快速轨迹阶段的数学直觉是,通过多个连续的梯度步骤,可以在参数空间中积累更稳定的更新方向。即使某些单独的梯度估计可能有噪音,它们的组合往往能够抑制随机波动,并与潜在的梯度方向保持一致。从几何学角度来看,这可以被理解为沿着参数空间中的短轨迹积分局部梯度场,而不是相信单个噪音向量。

重新定位阶段的理论基础来自于解决一个线性化的近端子问题。数学上,这个插值等价于最小化一个包含梯度信息和正则化项的目标函数,其中插值参数α控制着对原始策略点的信任程度。较小的α值意味着更强的正则化,强制更新保持接近策略内区域,而较大的α值则更多地依赖于快速轨迹,但风险是更大的分布不匹配。

慢速修正阶段则提供了一个预测-校正结构:快速轨迹产生一个稳定的快速轨迹,重新定位通过插值调节非策略内偏移,而慢速修正应用一个与更新点局部曲率对齐的梯度校正。理论分析表明,在L平滑性和足够小的学习率假设下,SFPO能够保证收敛性,同时平衡梯度信息的利用和分布偏移的控制。

为了验证SFPO的有效性,研究团队进行了大规模的实验验证。他们选择了五种不同规模的语言模型进行测试,包括Qwen2.5-Math-1.5B、DeepSeek-R1-Distill-Qwen-1.5B、Qwen3-4B-Base、Qwen2.5-Math-7B和DeepSeek-R1-Distill-Qwen-7B。这些模型的参数规模从15亿到70亿不等,涵盖了从小型到大型的不同应用场景。

实验使用了两个不同规模的训练数据集。第一个是DAPO训练数据集和Math训练数据集的组合,总共包含约24000个数学问题。第二个是更大规模的Skywork-OR1数学强化学习训练数据集,包含105000个数据样本。通过在不同规模的数据集上进行测试,研究团队能够验证SFPO在各种训练环境下的鲁棒性和有效性。

评估过程采用了六个广泛使用的数学推理基准测试,包括Math500、AIME24、AIME25、AMC、MinervaMath和Olympiad Bench。这些基准测试覆盖了从基础数学到奥林匹克竞赛级别的各种难度层次,能够全面评估AI模型的数学推理能力。每个基准测试都进行了多次评估,使用Pass@1准确率作为主要评价指标,这意味着模型需要在第一次尝试时就给出正确答案。

实验结果令人印象深刻。在所有测试的模型和基准上,SFPO都表现出了一致的性能提升。对于小规模模型,提升效果尤为显著。例如,在Qwen2.5-Math-1.5B模型上,SFPO将平均准确率从38.35%提升到40.19%,绝对提升了1.84个百分点。在DS-distilled-Qwen-1.5B模型上,提升更加明显,从47.73%提升到50.53%,绝对提升了2.80个百分点。

特别值得注意的是,在最具挑战性的数学竞赛任务上,SFPO的优势更加突出。在AIME24和AIME25这两个国际数学竞赛基准上,DS-distilled-Qwen-1.5B模型使用SFPO后在AIME25上取得了7.5个百分点的绝对提升,这在AI数学推理领域是一个相当大的进步。对于大型模型,虽然提升幅度相对较小,但仍然非常一致。Qwen2.5-Math-7B模型的平均准确率从48.36%提升到49.19%,DS-distilled-Qwen-7B模型从60.47%提升到63.04%。

除了准确率的提升,SFPO在训练效率方面的改进更加令人惊喜。研究团队对比了SFPO和传统GRPO达到相同准确率所需的训练资源。结果显示,SFPO在样本效率上有显著优势。具体来说,SFPO只需要传统方法3.21倍到4.93倍更少的数据样本就能达到相同的性能水平。在墙钟时间(实际训练时间)上,SFPO的速度提升从2.62倍到4.19倍不等。

这种效率提升的原因在于强化学习训练过程中的主要瓶颈是生成训练样本,这个过程占用了超过70%的整体推理时间。通过显著减少所需的样本数量并利用重新定位机制,SFPO有效地缓解了这个瓶颈,实现了更快的训练速度。

研究团队还详细分析了SFPO训练过程中的动态变化,这些分析揭示了为什么SFPO能够取得如此优异的效果。在验证准确率方面,SFPO不仅在早期阶段实现了更快的收敛,而且在训练结束时保持了更高的全局准确率。例如,在Qwen3-4B-Base模型上,SFPO在仅仅150个训练步骤内就达到了更高的准确率并保持稳定,而传统的GRPO即使在400个步骤后也无法超越这个性能水平。

在响应长度控制方面,SFPO展现出了更好的稳定性。传统的GRPO往往会逐渐退化为过于简短的回答,这可能导致推理不充分。而SFPO能够快速收敛到一个稳定的长度范围(大约2700个词符),同时保持更好的准确率。这表明SFPO有效地避免了过度思考导致的冗长回答,同时也防止了回答过于简短的问题。

从熵损失的角度来看,SFPO使模型的熵损失更低。通常情况下,较低的熵意味着较弱的探索能力,但在SFPO的情况下,熵的降低主要反映了模型能够早期消除无效的搜索路径,而不是抑制整体探索。实际上,模型仍然探索足够广泛的推理轨迹集合,因此SFPO观察到的较低熵应该被视为更高效探索的标志,而不是有限探索的标志。

在奖励得分方面,SFPO在整个训练过程中也实现了更高且更稳定的奖励,这表明它与奖励函数有更强的对齐,收敛更加稳健。这进一步体现在其优异的准确率和良好控制的响应长度上。

为了深入理解SFPO各个组件的作用,研究团队进行了详细的消融实验。关于参数α和K的影响分析显示,当K较小时,SFPO在不同α值下都保持稳定,并且始终优于GRPO。这与理论直觉一致:在同一批次数据上执行多次内部更新,然后进行重新定位,能够有效减少梯度噪音并产生更可靠的更新方向。

然而,当K较大时,快速权重会显著偏离原始参数。如果α也很大,就会通过将慢速权重过于激进地拉向不稳定的快速轨迹来放大这种不匹配,从而注入噪音并导致性能下降。较小的α通过保持更新接近原始策略内迭代来缓解这种偏移并恢复稳定性,这证实了K和α之间的相互作用。

关于插值对抗非策略内过拟合的作用,当α等于1(无插值)时,性能初始上升但随着训练进展稳步下降。没有插值的情况下,模型通过过拟合小批量样本快速适应,产生短期收益但向梯度更新注入越来越多的噪音,导致不稳定和长期退化。当K较大时这种效应被放大,因为快速权重偏移很大,慢速权重完全采用这些噪音轨迹,导致急剧的性能下降。

相比之下,对于较小的α,插值保持更新更接近策略内区域,减轻分布偏移并稳定训练。如果α过小且K较小,算法会利用不足稳定的快速轨迹,略微减慢早期改进。而对于较大的K,较小的α是优选的,插值有效地抵消了许多内部步骤引起的严重非策略内偏移。总的来说,插值作为一个简单有效的正则化器,防止第一阶段引入的潜在非策略内过拟合。

第三阶段慢速修正的重要性通过对比实验得到了证明。加入慢速修正始终改善了相对于GRPO的稳定性和准确率。没有这个阶段,重新定位阶段会将迭代留在一个插值点,该点可能偏离真正的下降方向。直觉上,慢速修正提供了一个曲率感知的调整,使更新与正确的优化轨迹重新对齐。

研究团队还评估了自适应熵控制的效果。移除熵控制后,在大约100步后出现明显的准确率下降。这种退化与熵损失的快速发散同时发生,表明策略变得不稳定并过拟合噪音样本。这些结果突出了熵控制作为维持SFPO稳定性和可靠性的关键因素。

为了简化实现,研究团队通过α的轻量级调度来实现熵控制。一旦预定义的熵触发器被激活,α被设置为0,将SFPO恢复为标准GRPO用于后续步骤。这个简单机制有效地稳定了训练,同时保留了效率增益。

关于α衰减策略的进一步研究表明,一旦通过z分数标准识别出停止步骤,α的衰减方式对整体性能的影响很小。研究团队比较了两种代表性方法:直接将α设置为零的默认方法,以及在几个后续步骤中将α逐渐衰减为零的更渐进的线性衰减计划。两种策略都产生了相似的准确率和稳定性曲线,表明衰减计划本身对SFPO的整体性能影响很小。这个结果暗示,一旦满足熵触发条件,α的作用就变得边际化,任何进一步的调整都收益有限。

SFPO的一个重要优势是它的即插即用特性。它不需要对现有的训练流程进行任何根本性改变,不改变底层目标函数、样本生成过程或KL/剪切正则化。这意味着已经使用GRPO或其他策略梯度方法的研究团队和公司可以很容易地采用SFPO,而不需要重新设计整个训练架构。

从实际应用的角度来看,SFPO的改进对整个AI行业都有重要意义。随着大语言模型在教育、科研、工程等领域的应用越来越广泛,提高这些模型的数学推理能力变得越来越重要。SFPO不仅提高了模型的准确率,更重要的是大幅减少了训练所需的计算资源和时间,这意味着更多的研究机构和公司能够负担得起训练高质量的数学推理模型。

此外,SFPO的成功也为强化学习在其他领域的应用提供了新的思路。虽然这项研究专注于大语言模型的数学推理,但其核心思想——通过多步探索、重新定位和精确修正来稳定学习过程——可能也适用于机器人控制、游戏AI、推荐系统等其他需要强化学习的领域。

研究团队在论文中也坦诚地讨论了SFPO的局限性和未来改进方向。例如,虽然SFPO在各种模型规模上都表现良好,但对于超大规模模型(数千亿参数)的效果还需要进一步验证。此外,自适应α调度虽然简单有效,但可能还有更复杂精确的调度策略有待探索。

说到底,这项由乔治亚理工学院和伊利诺伊大学厂-比纳分校合作完成的研究代表了人工智能训练方法的一个重要进步。SFPO不仅解决了现有方法在训练早期阶段的不稳定问题,还大幅提高了训练效率,这对于推动AI技术的普及和应用具有重要意义。当我们使用AI工具解决复杂数学问题时,背后可能就有这样的技术在默默发挥作用,让AI的回答更加准确、可靠。对于那些对技术细节感兴趣的读者,可以通过论文编号arXiv:2510.04072v2在arXiv平台上查阅完整的研究内容,深入了解这项激动人心的技术突破。

Q&A

Q1:SFPO是什么?它和传统的GRPO方法有什么不同?

A:SFPO是慢-快策略优化方法,专门用于训练AI的数学推理能力。与传统GRPO每次只进行一步学习不同,SFPO分为三个阶段:先快速尝试多种方案,然后重新定位到合理位置,最后进行精确修正。这就像经验丰富的厨师会先尝试几种调料搭配,再调整到最佳状态,而不是严格按照食谱一步步来。

Q2:SFPO能带来多大的性能提升?训练效率有什么改善?

A:实验显示SFPO在准确率上提升了1.6到2.8个百分点,在一些困难的数学竞赛题目上提升更明显。更重要的是效率大幅提升:SFPO只需要传统方法1/3到1/5的训练样本,训练时间也减少了60-75%。这意味着用更少的资源就能训练出更好的AI数学推理模型。

Q3:普通人能从SFPO技术中获得什么好处?

A:虽然SFPO是底层训练技术,但它会让我们日常使用的AI工具变得更聪明、更可靠。比如AI数学辅导、自动解题、科学计算等应用会变得更准确。同时由于训练成本降低,更多公司能够开发出高质量的AI数学工具,这意味着普通用户能够以更低成本享受到更好的AI数学服务。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。