近日,机器学习与决策控制领域的知名专家、美国加州大学伯克利分校副教授、Physical Intelligence 联合创始人 Sergey Levine,在其个人博客上发表了一篇题为《人工智能的叉勺》(Sporks of AGI)的文章。深入探讨了在机器人学习领域中数据获取的核心挑战,尤其对当前普遍依赖的“替代数据”策略提出了批判性思考。
图丨Sergey Levine(MIT Technology Revie)
文章开篇就直指机器人技术发展的核心痛点:数据。与主要依赖文本和图像数据的大语言模型和视觉语言模型不同,训练机器人所需的视觉-语言-行为(VLA,Vision-Language-Action)模型,需要的是机器人在真实物理世界中进行交互和执行任务的数据。这类数据的采集不仅成本高昂、效率低下,而且难以规模化,这成为了训练强大、通用机器人模型的主要障碍。
图丨相关博文(Sergey Levine)
因此,研究界一直在寻找“次优选择”(The Next Best Thing),即用一些成本较低的替代数据(surrogate data)来取代真实世界的数据。文章将当前研究界为绕过数据难题而采用的各种“捷径”——例如在模拟器中训练、从人类视频中学习、或使用模仿机器人夹爪的设备——比作“叉勺(Spork)”。叉勺试图同时拥有叉子和勺子的功能,却最终在两方面都表现平平,无法真正替代其一,甚至会随着模型能力的增强而变得更加有害。因此,他呼吁研究者正视困难,回归“真实之物”(The Real Thing),强调只有真实、海量的物理世界交互数据,才是通往通用机器人智能的必经之路。
以下是博文的完整内容:
为什么“真实之物”优于“次优之选”
训练大模型真的很难,而且随着模型变得越来越大,并扩展到新的领域时,只会变得更难。大语言模型使用大量文本数据,视觉语言模型需要文本和图像,而机器人领域的视觉-语言-行为模型,则需要机器人在真实世界中执行真实任务的数据。这对智能体(agent)来说尤其困难:无论你是想控制一个真实世界的机器人,还是想在网络上执行操作以满足用户请求,带有行为标签的真实世界交互数据,都无法像网络上的文本和图像那样廉价地获得。
因此,研究人员一直在努力寻找一种方法,用“次优之选”(The Next Best Thing)来替代真实数据和行为,试图兼得两者的优点:既拥有在海量数据集上训练大型模型所带来的强大能力和泛化性,又付出一个远低于在领域内(in-domain)为基础模型收集标准训练数据所需的成本。
次优之选
虽然在视觉感知和自然语言处理等领域,真实世界的原始数据一直都是首选,但当涉及到智能体——特别是机器人智能体(例如 VLA 模型)时,人们总有一种不可抗拒的冲动,想要找出如何使用别的东西,某种可以廉价获取的“替代品”(surrogate),但它又能提供我们所追求的那种广泛的泛化能力。
我们可以使用一些方法来记录人类自己以一种更“机器人化”的方式执行任务的视频。这个领域已经有了大量激动人心且极具创造性的研究,如果稍作概括,可以将其描述如下:手动定义一个廉价的替代域(surrogate domain)与真实世界机器人系统之间的映射或对应关系,然后利用这种对应关系,使用廉价的数据来代替昂贵但有代表性的领域内数据(即来自目标域中真实机器人的数据)。每一种被广泛研究的、用以避免收集真实机器人数据的方法,都基于类似的想法:
模拟(Simulation):从模拟到现实(sim-to-real)的方法需要人类设计师来指定机器人训练的环境并生成必要的资产。在模拟中学到的行为是这些选择的产物。通常,能带来最佳结果的模拟环境,并不是对现实的精确建模(这非常困难),而是对机器人需要应对的各种变化类型进行编码,比如在随机的垫脚石或高度场上进行训练。这进一步凸显了人类的洞察力不仅决定了任务是什么,还间接指明了任务应该如何解决。人类视频(Human videos):那些纯粹从人类视频中学习机器人技能的方法,通常需要定义某种人类与机器人之间的对应关系,比如抓取时手或手指放置的位置。任何此类选择都预设了一种特定的任务解决方法(例如,用强力抓取的方式捡起和移动物品),并且还需要在物理上可行的人类动作与机器人动作之间架起一座巨大的桥梁,无论是在动力学上还是在外观上。手持夹爪设备(Hand-held gripper devices):我们可以在学习过程中,通过让人们使用模仿机器人夹爪的手持设备来收集数据,从而在物理上强加一种人机映射。这确实是一种将人类意图转化为机器人动作的非常直接的方式,但它也带来了自身的挑战:例如,一个没有手臂的悬空夹爪的动力学特性与一个完整的机器人手臂是截然不同的。
所有这些方法都促成了有趣且相关的研究,并取得了一些出色和令人兴奋的实践成果。但是,我认为它们中的每一种都代表了一种妥协,而这种妥协最终会破坏大型学习模型的真正力量。
交集
当然,在收集数据时,人类的判断是不可避免的:即便是最原始、最纯粹的“白板式”学习方法,也需要我们定义一些关于我们希望模型做什么的事情。但是,当我们为了回避真实数据而做出设计决策时,这些决策可能会带来特别大的麻烦,因为它们内在地限制了问题可以被解决的方式。
每存在一个域差距(domain gap)(无论是模拟、视频还是其他),我们都会被限制在这样一个解决方案空间里:它必须位于那些在我们的系统上实际有效的行为、可以用我们选择的方法(例如,模拟或手持夹爪)完成的行为,以及——这一点至关重要——那些不会加剧领域间差异的行为(例如,不会暴露机器人其实没有手持夹爪,或不会触发一个特别严重的模拟/现实世界差异)的交集之中。
此外,随着我们使用更大、更强的模型,我们应该预料到会从这些问题中感受到更强的阻力:因为更强大的模型能更紧密地拟合数据中的模式,它们将越来越多地拟合那些(我们不希望的)差异,就像它们学习我们想要学习的、真正的可迁移模式一样。
(Sergey Levine)
在研究项目和演示中,这些问题可能看起来无伤大雅,因为我们可以设置真实机器人,让这种差异变得不那么重要,比如选择那些最佳和最鲁棒的策略恰好就落在这个交集内的环境和物体。但在真实的开放世界环境中,这不仅是局限性的,它实际上破坏了训练大型、强大基础模型的主要优势。
首先,随着模型越来越强,从而越来越能分辨出替代数据域和真实世界域的差异时(即上图中黄色圆圈缩小时),这个交集会变得更小。我们可以尝试通过向模型隐藏信息、减少观察空间、使用域不变损失函数、限制机器人可以使用的摄像头视角等方法来抵消这个问题。实际上,几乎所有解决这些域差异的方法,最终都归结为某种形式的信息隐藏。但这再次破坏了基础模型的根本优势,即它们合成复杂信息源并提取人类难以手动识别的微妙模式的能力。基本上,随着我们使用更强的模型,黄色圆圈会变小,而任何试图抵消这一点的尝试,最终都会使模型变弱。我们只能通过“给我们的模型做脑叶切除手术”(lobotomizing them),来“愚弄”它们,阻止它们意识到自己身处《黑客帝国》(The Matrix)之中。
这个交集的大小,也关键性地取决于我们在设计替代数据时所做的决策——这些决策越差,绿色和红色圆圈之间的交集就会越小。在实践中,我们会为我们的替代数据(我们的模拟器或手持数据收集设备)进行设计,以便在我们设想的少数应用领域中,这种差异被最小化,以确保好的动作(即那些能导致成功的动作,或至少能避免灾难性失败的动作)在替代数据和真实机器人之间能够匹配。但在这些应用领域之外,无法保证它们还会匹配。
(Sergey Levine)
所有这些问题,在我们真正想要优化出最佳行为(例如,通过强化学习)时,都会变得更加严重,因为我们无法在不走出“机器人能做的、在替代数据中有效的、且模型无法分辨差异”这个狭窄交集的情况下,充分利用真实机器人系统的全部能力。
真实之物
在试图回避使用真实世界数据的过程中,我们其实是在寻找一个“两全其美”的解决方案:某种既像模拟或视频那样廉价,又具备真实世界数据有效性的东西。
在机器学习中,持续有效的最佳方法是确保训练条件与测试条件相匹配。这就是“真实之物”(The Real Thing)——那些教会模型世界究竟如何运作的数据,这样它才能做好自己的工作,提取潜在的模式(其中许多模式对于人类来说都过于微妙和复杂,难以理解),然后从这些模式中进行推断,以解决复杂的新问题。当我们用替代数据来替换真实数据时,我们其实在做的是“次优之选”:一个在少数特定条件下能够匹配真实情况的替代品。就像你无法通过对着墙打球或在电视上看罗杰·费德勒的比赛而成为一名网球专家一样——尽管这两者都复制了真实网球体验的某些方面——机器人也无法掌握真实世界,除非它能看到自己在真实世界中做事。
我们应该从中得到什么启示?主要启示是,如果我们想真正构建能够像大语言模型和视觉语言模型在虚拟世界中那样,在真实物理世界中广泛泛化的机器人基础模型,那么真实数据是不可或缺的。
但我们也不应“把婴儿和洗澡水一起倒掉”:保持务实很重要。就像 LLM 和 VLM 使用大量与其最终目的并非高度相关但包含了有用世界知识的数据一样,我们的机器人基础模型也可以使用许多不同来源的数据。毕竟,如果你想成为一名优秀的网球运动员,观看费德勒的比赛是有用的。如果我们在训练集中,除了广泛且有代表性的真实世界机器人经验之外,还包含多样化的数据,包括来自人类甚至模拟的数据,这很可能会有帮助。我只是想说,这可能比完全回避真实世界数据的需求要容易得多:一旦我们不再需要担心只在机器人能力和我们替代数据覆盖范围的交集中学习,就可以抛弃那些旨在缩小域差距的“拐杖”,并接受替代数据的本来面目:它是一种辅助知识来源,旨在补充真实世界的经验,帮助你成为一名优秀的网球运动员。
The Sporks
在这篇文章中,我讨论了替代数据,这是一种试图在不付出大规模领域内数据收集成本的情况下,获得规模化训练好处的“叉勺”(spork)。这并非 AI 研究人员钟爱的唯一一种“叉勺”。其他“叉勺”还包括:结合了人工工程和学习组件的混合系统;使用人工设计的约束来限制学习型自主系统不良行为的方法;以及将我们关于问题应该如何解决的直觉嵌入到神经网络结构本身的方法。它们都试图获得两全其美:既有大规模机器学习的好处,又没有随之而来的高数据需求或大量目标设计(“对齐”或“后训练”)的缺点。
在深层次上,它们有很多共同点——通过某种形式的人工设计的归纳偏置(inductive bias)来解决训练不完整带来的挑战。因此,它们有一个根本性的缺点:它们要求我们植入“我们认为我们是如何思考”的方式。大规模机器学习的成功,归根结底在于机器学习的力量胜过人类设计——这就是 Richard Sutton 所说的“惨痛的教训”(The Bitter Lesson)。“惨痛的教训”的一个必然推论是,在任何支持学习的系统中,任何未经学习而是通过手工设计的组件,最终都会成为其性能的瓶颈。“叉勺”之所以吸引人,是因为它们让我们以为可以通过强制模型以特定方式解决问题来克服重大挑战,但最终,这只会让我们的学习系统变得更不可扩展,即便我们的初衷恰恰相反。
参考资料:
https://sergeylevine.substack.com/p/sporks-of-agi
运营/排版:何晨龙
相关文章
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读
2025-07-240阅读