“理想汽车已经积累了12亿公里的效数据,云端算力规模已达13EFLOPS 。”
作者丨王瑞昊
编辑丨田哲
7月29日,理想汽车发布首款纯电SUV——理想i8,售价32.18万至36.98万元。这款六座家庭SUV被视为理想在纯电赛道上“能否翻篇”的关键一步。
一位内部员工告诉雷峰网,理想i8的定价参考了理想L8,公司希望i8的市场成绩至少要达到理想L8的水平,L8上市首月即交付5293辆。
不过,理想i8没能实现上市即交付,而是要到8月20日。
雷峰网了解到,理想下一代智能辅助驾驶方案——VLA司机大模型会随着i8同步交付,这或许是整体交付要等到8月20日的主要原因。
为了成功切换到VLA,理想汽车从去年开始预研,今年初开始以项目组的形式攻关工程化研发,希望能首发搭载理想i8,成为i8的一个重要卖点。
尽管目前VLA还存在一些缺陷,比如在一些场景中的体验还不如端到端版本。“理想是业界第一个量产VLA的车企,还存在一些缺陷,”理想汽车自动驾驶研发高级副总裁郎咸朋说,“但在自动驾驶领域,VLA解决的是一个相对统一的驾驶范式,有机会实现GPT时刻。”
从轻图、无图到端到端,再到现在的VLA,每一次变化,背后都伴随着模型能力的提升与技术瓶颈的突破。
理想上一代方案“端到端+VLA”的原理是模仿学习,用人类驾驶的数据训练模型,决定模型的性能是数据规模与数据质量,数据越多,覆盖的场景就越多;数据的质量越好,训练出来的模型就越像老司机。
过去一年,理想在端到端的MPI(平均接管里程)上取得了明显进展。去年7月第一个无图版本的MPI是十几公里,随着训练数据从百万级扩大到1000万Clips(视频片段),到今年初MPI提升到近100公里,7个月内增长近10倍,进展迅猛。
但理想汽车发现,从1000万Clips开始,模型性能的提升明显放缓。简单堆数据已难以拉动模型进步,有价值的训练样本越来越稀缺,进入“提分难”阶段。就像考试,从不及格提升到八九十分很快,但再往上提5分、10分非常难。从3月到7月底近5个月,模型性能只提升了2倍左右,远低于此前速度,说明端到端模型已遇到数据质量和训练效率的双重瓶颈。
“本质来看,端到端就像猴子开车一样,这套模仿学习不具备逻辑思考能力。”郎咸朋解释了端到端遇到瓶颈的主要原因。
VLA的出现给了理想解决端到端瓶颈的一个全新思路。
VLA代表的是一种以强化学习为核心的新范式,不再依赖100%真实人类驾驶数据。因为人类数据分布有限,多为白天、晴天、无事故等安全场景,缺乏训练所需的极端或危险场景。
VLA通过生成式方法和仿真环境,主动构造稀缺数据,并在仿真中反复试错迭代。其核心是仿真迭代效率,谁的仿真跑得快、场景全,谁的模型能力进步就快,这与传统“堆数据”的模仿学习路径截然不同。
在强化学习的加持下,郎咸朋表示VLA具备思维能力、沟通能力、记忆能力、自主学习能力等四大核心能力,也即是“能思考、能沟通、能记忆、能自我提升”。
理想汽车得以在短时间内推出VLA,前提是已经在数据、算法、算力和工程等领域积累了足够多的能力,比如截至到今年7月份,理想汽车已经积累了12亿公里的效数据,云端算力规模已达13EFLOPS(2万张H20等效训练卡,3万张等效L20推理卡)。
“这些能力,不是谁都有,”郎咸朋说,“我们一定会比友商早,我们一定是第一个。”
以下为雷峰网等媒体与郎咸朋、理想汽车自动驾驶高级算法专家詹锟、理想汽车自动驾驶高级算法专家湛逸飞的对话实录,略经删减:
问:VLA司机具备推理能力,并且表现更像人了,但是需要几秒钟的推理时间,请问在突发场景下,VLA司机是怎么进行快思考的?
郎咸朋:您认为思考过程很慢实际上是显示的原因,本身推理速度是很快的,只是为了让大家能够看地更清楚我们摘取了一些重要的思考过程显示出来。实际上现在VLA的推理帧率在10Hz左右,相比之前的VLM提升了三倍多,之前端到端的VLM部分是3Hz左右。
问:您刚才提到现在用MindGPT作为基座模型进行训练,这比之前的模型好用吗?
詹锟:我们自研的基座模型对部署VLA有很大作用,我们VLA是4B模型,比以前更大了,但推理速度更快了。核心原因是我们自研的基座架构,并不是业界任何一个开源模型都能达到这个效率。之前在AI Talk上提到过我们是MoE的0.4×8的架构,目前没有任何一个架构是这样的,这是我们与基座团队共同研发,专门对嵌入式芯片做了定制的MoE混合专家架构,在这个架构上我们才能达到这样的效果。
VLA的推理帧率在10Hz左右,每一帧都会经过语言模型,这其中会有比较快的思考,也有会有比较长的思考,我们做了很多的优化,把思考过程尽可能地能够在车端推理出来。
问:是否可以用更通俗的方式介绍一下VLA模型的难度在哪里?对企业的要求是什么?如果一个企业想要落地VLA模型会面临哪些挑战?
郎咸朋:曾经也有很多人问过如果车企想做VLA模型是不是可以跳过前面的规则算法、端到端阶段,我认为是不行的。
虽然VLA的数据、算法等可能跟之前不太一样,但是这些仍然是要建立在之前的基础上的,如果没有完整地通过实车采集的数据闭环,是没有数据去训练世界模型的。
理想汽车之所以能够落地VLA模型,是因为我们有12亿数据,只有在充分了解这些数据的基础上,才能够更好地生成数据。如果没有这些数据基础,首先不能训练世界模型,其次也不清楚要生成什么样的数据。同时,基础训练算力和推理算力需要大量资金和技术能力的支撑,如果没有之前的积累是不能完成的。
问:请问未来理想汽车提升自动驾驶能力的过程中,对于算力储备和卡的规划是怎样的?是否能够介绍一下从规则算法时代到模仿学习阶段,再到强化学习阶段,在这三个阶段期间,理想汽车的算力增长节奏是怎样的?
郎咸朋:算力增长过程与技术方案相关。在规则算法时代,训练的卡只是用于训练BEV模型和感知模型,相对数量较少,但在端到端时代,模型训练需要大量算力及训练卡,我们的训练卡从不到1EFLOPS增长到去年的10EFLOPS,增长了10倍左右。我们认为训练算力是一方面,同时要增加推理算力。
问:智能驾驶存在一个“不可能三角”,也就是效率、舒适和安全三个目标之间是互相制约的,目前阶段可能难以同时实现。请问理想汽车的VLA目前在当前阶段最先优化的指标是哪一个?刚刚提及到MPI,是否可以理解为目前理想汽车最终的指标是提升安全性以有效减少接管?
郎咸朋:MPI是我们衡量的指标之一,还有一个指标是MPA,也就是指发生事故的里程,现在是300万公里左右。理想车主的人驾数据是60万公里左右出一次事故,而在使用辅助驾驶功能的情况下是350到400万公里发生一次事故。这个里程数据我们还会持续提升,我们的目标是将MPA能提升到人类驾驶的10倍,也就是比人驾安全10倍,我们希望在辅助驾驶功能下能够做到600万公里才出一次事故,但这必须等到VLA模型提升之后才能做到。
针对MPI,我们也做过分析,可能一些安全风险问题会导致接管,但有时候舒适度不好也会导致接管,比如急刹、重刹等,因为并不一定每次都会遇到安全风险,但是如果驾驶舒适度不好,用户依然不想用辅助驾驶功能。因为MPA可以衡量安全性,在MPI方面,除了安全性之外,我们重点提升了行车舒适度,如果体验了理想i8的辅助驾驶功能,会体验到舒适度比之前的版本有很大提升。
效率是排在安全和舒适之后的,比如走错路,虽然效率有所损失,但我们不会通过一些危险的动作立刻纠正,还是要在安全和舒适的基础上去追求效率。
问:刚提到今年实车测试是2万公里,请问大幅减少实车测试的依据是什么?
郎咸朋:我们认为实车测试有很多问题,成本是其中一方面,最主要的是我们在测试验证一些场景时不可能完全复现发生问题时的场景。同时,实车测试的效率太低了,在实车测试过程中要开过去之后再复测回来,我们现在的仿真效果完全可以媲美实车测试,现在的超级版本和理想i8的VLA版本中90%以上的测试都是仿真测试。
从去年端到端版本我们就已经开始进行仿真测试的验证,目前我们认为它的可靠性和有效性都很高,所以我们以此替代了实车测试。但仍有一些测试是无法替代的,比如硬件耐久测试,但和性能相关的测试我们基本上会使用仿真测试替代,效果也非常好。
问:通常的做法是保持实车测试规模,大幅增加仿真测试数量,从理想汽车的实际反馈看,仿真测试的效果是比实车测试好很多对吗?
郎咸朋:是的。仿真测试效果好,成本低,为什么不用仿真测试呢?我们保留实车测试是为了一些必要内容,任何技术的提升一定伴随着研发流程的变革,工业时代来临后,刀耕火种的流程被机械化替代;信息时代后,网络替代了大量工作。在自动驾驶时代也是一样,端到端时代来临后,我们进入了使用AI技术做自动驾驶的方式,从雇佣大量工程师、算法测试人员,到数据驱动,通过数据流程、数据平台和算法迭代提升自动驾驶能力。而进入了VLA大模型时代,测试效率是提升能力的核心因素,如果要快速迭代,一定要把在流程中影响快速迭代的因素迭代掉,如果这其中仍有大量的实车和人工介入,速度是会降低的。并不是我们一定要替代实车测试,而是这项技术,这个方案本身就要求要使用仿真测试,如果不这样做,并不是在做强化学习,并不是在做VLA模型。
问:刚刚分享了端到端的瓶颈和一些无法解决的问题,VLA是当时唯一考虑的路线吗?还是有其它的选择?
郎咸朋:我们并没有很纠结方案。因为我们一直保持着对前沿算法的预言和探索,做端到端的时候我们也在考虑下一代人工智能技术,当时业内最有前途的就是VLA技术方案,但并不是只是用于自动驾驶,它是具身智能领域的技术。我们认为它也是未来机器人领域的通用技术框架,其实自动驾驶也是一种机器人,是自主行驶的机器人,如果未来我们希望做其它机器人,也都可以基于类似的VLA框架,所以我们经过了长时间的调研和探索,制定了VLA的技术方向。
问:刚郎博提到如果量化精度高的话,可以在Thor芯片上实现翻倍的算力,为什么理想汽车能够最大限度压榨芯片的能力?基于这个能力,理想汽车是否还会自研智驾芯片?
詹锟:我们从去年开始用Orin芯片做大模型部署,当时英伟达觉得这是不可能的,但我们认为这是必须要做的,和英伟达做了非常详细的剖析和拆解,我们的工程团队、部署团队做了非常多的工作,包括我们魔改CUDA的底层,重写PTX底层指令,才能实现现在的效果。
理想汽车自动驾驶团队的工程部署能力是一以贯之的,从早期在地平线J3部署高速NOA,到在Orin芯片上部署大模型,再到现在在Thor芯片上部署VLA高频快速的大模型。这些都是有工程积累和工程实践的,很多技巧和分析方法,以及基础设施的工具链都继承下来了。这其中很关键的一点是我们打磨细节的能力,芯片能否被压榨最主要的事做底层分析,解决瓶颈热点。刚刚郎博分享了很多我们解决的问题,大家会发现VLA从最初推理一帧需要500-600毫秒到最后实现10Hz,提升了近10倍的效率,这其中有非常多的细节都是我们在遇到问题后拆解当前芯片适配的算法,调整算子,让算子和芯片的能力更匹配。大家常用的推理模型会用FP16,我们把它降到FP8,性能做了非常的提升,同时FP4也是英伟达在最新的Blackwell架构中非常推崇的,我们会进一步把芯片算力压榨出来。
郎咸朋:自研芯片的核心原因是作为一个专用芯片能够针对自己的算法进行特定地优化处理,性价比和效率都会很高。现在我们依然使用Thor芯片是因为英伟达对一些新的算子支持是比较好的,算力也比较充足,在整体VLA迭代过程中依然有变化的可能性,所以我们依然在用Thor芯片。如果未来算法锁定,为了更好的效率和成本,大家都会考虑自研芯片的。
问:您刚才讲到从规则到端到端+VLM是比较大的技术路线革新,但VLA其实没有颠覆端到端+VLM,所以是否可以理解成VLA是偏向于工程能力的创新?
詹锟:VLA不只是工程方面的创新,大家如果关注具身智能,会发现这波浪潮伴随着大模型对物理世界的应用,这本质就是提出了一个VLA算法,我们的VLA模型就是想把具身智能的思想和路径引用在自动驾驶领域。我们是最早提出,也是最早开始实践的。VLA也是一种端到端,因为端到端的本质是场景输入,轨迹输出,VLA也是如此,但算法的创新是多了思考。端到端可以理解为VA,没有Language,Language对应的是思考和理解,我们在VLA中加入了这一部分,把机器人的范式统一,让自动驾驶也能成为机器人的一类,这是算法创新,不只是工程创新。
但对于自动驾驶而言,很大的挑战是必须要有工程创新。因为VLA是一个大模型,大模型部署在边缘端算力上是非常具有挑战的。很多团队并不是认为VLA不好,而是因为VLA部署有困难,把它真正落地是非常具有挑战性的事情,尤其是在边缘端芯片算力不够的情况下是不可能完成的,所以我们是在大算力芯片上才能部署。所以这不仅仅是工程创新,但的确需要工程部署大范围优化才能实现。
问:VLA大模型在车端部署的时候是否会有一些轻量化的版本,比如模型裁剪或蒸馏版本?如何在推理效率和模型之间做好平衡?
詹锟:在部署时的效率和蒸馏上我们做了非常多平衡。我们的基座模型是自研的8x0.4B的MOE模型,这是业界没有的,我们在深入分析英伟达芯片后,发现这个架构非常适合它,推理速度快的同时模型容量大,能够同时容纳不同场景、不同能力的大模型,这是我们在架构上的选择。
另外,我们是大模型蒸馏出来的,我们最早训练了一个32B的云端大模型,它容纳了海量的知识和驾驶能力,我们把它做出的思考和推理流程蒸馏到3.2B的MoE模型上,配合Vision和Action,使用了Diffusion。我们用这样的方法做了非常多的优化。从细节上来看,我们也针对Diffusion做了工程优化,并不是直接使用标准Diffusion,而是进行了推理的压缩,可以理解为一种蒸馏。以前Diffusion可能要推理10步骤,我们使用了flow matching流匹配只需要推理2步就可以了,这方面的压缩也是导致我们真正能够部署VLA的本质原因。
问:我们在测试时看到了,可以对VLA说前进10米。您也提到了这个概念,大模型在训练数据中是没有学习过这么具体的概念的,理想汽车是如何发现了解背后机制的?另外,人类是否能信任大模型做出的判断?
詹锟:首先,我们不会单纯地让模型学习向前走10m、12m这样生硬的数据,但是在海量的通识数据中,有很多对物理空间的理解。比如前方白车距离多少米,前方路沿和我有多少距离,而且现在大模型也已经加入很多物理空间的知识,包括现在的ChatGPT、千问都具备这样的能力,把这些能力在大模型里学习之后,我们只需要在action中把它体现出来。刚刚分享了五步训练法,第一步就是加入通识能力和物理世界的知识,在第二步时进行一些微调,将这样的能力和action结合,就能够实现,这是端到端的学习思路就能做到的。其实有一些背后的机制和现在的大模型是非常一致。当我们把海量数据喂给它以后,这些数据具备组合泛化能力,并不是教什么学什么,当量级达到一定规模时,会涌现出一些能力,包括行为,并不是说必须11m、12m、13m,分别教才行。它懂了数字,懂了米数,当你在给它一个新的东西,它就存在一种组合泛化的机制。
这是大模型理论研究非常多的,但目前这样的机制是可以在各个领域进行泛化应用的。所以我们很多能力和知识就是各个学科交叉的融合,我们也非常关注现在大模型的进展,随时可以向自动驾驶上迁移。
问:郎博提到物理世界中实车测试是无法100%复现场景的,在仿真测试过程中是怎样做到100%复原的?为什么理想汽车可以做到?
湛逸飞:我们在2024年进行了150多万公里的实车测试。实际上我们在2024年就已经具备了世界模型仿真能力,我们在用这150多万公里的实车测试来验证仿真环境的可靠性。事实上,最初世界模型仿真复现率或真实性存在问题,但我们通过与实车测试数据对比,在过去一年里针对仿真测试中的漏洞或缺陷进行了大量工程和算法优化,让仿真一致性达到了非常高的程度。虽然并没有达到100%,但准确率也可以在99.9%以上。举一个简单的例子,在仿真环境中最开始红绿灯的变化在200米外是看不清楚的,于是我们针对红绿灯的视野模型仿真进行了大量的优化,包括对30°相机分辨率的提升。我们用过去一年的时间将仿真系统的可靠性提升到了很好的程度,才会放心地去使用这套系统。
问:从行业角度来看,目前智驾体验是比较趋同的,未来理想汽车是否会将自己的智驾能力向行业输出或开源或向其他车企售卖?
郎咸朋:我认为是可以的,我们希望为行业做贡献。但前提是,第一,我们是不是能够很好地验证这套系统,因为整个VLA的发展还是在技术周期的初期阶段,需要继续提升;第二,是否其他人有能力和我们一起去做这件事,因为他也需要有自己的评测方式、仿真环境,以及强化学习训练能力。
从公司或我个人的态度上,是希望能够促进行业发展,但从目前VLA技术发展阶段来看,依然是比较初级的,它的发展速度可能会比较快,像端到端一样,用一年的时间将效果提升10倍。行业发展速度会非常快,我相信明年沟通的时候可能会讨论一下开源的问题。
问:郎博提到了VLA语言交互是很重要的一部分,我们在公开道路试乘中发现,当前的语言交互在理解复杂指令上还有提升空间。针对这类理解能力的提升,接下来会有哪些关键改进?我们何时能实现更自然的“怎么说就怎么做”的交互体验?VLA 还处于起步阶段,未来可预见的关键发展阶段有哪些?您提到 VLA 要成为“更好的家庭司机”,那在驾驶风格或“司机性格”的个性化定制方面,未来是否会有更多可能性?
詹锟:我先回答语音问题,因为语音交互是对整车全系统的交互,这个地方我们目前是刚给大家看到VLA初步版本,有些它对语言的理解是一个全系统任务,就是你对它说一句话,它到底是用来执行车控还是用来执行智驾需要有一些判断,我们现在肯定是为了保持准确,防止出现一些误判,比如你本来不想操控车的行为,突然去操控了,这肯定是存在一些还需要迭代和优化的地方。
我觉得未来有一个很重要的趋势是整个车会有一个统一的大脑,当这个车对统一大脑做的迭代更好的时候,不光是理解智驾、理解车机、理解整车,它还可以做出更精准的,到底我是在操纵车,还是在操纵空调,还是在打开窗户,还是在播放音乐,这方面会有更好的理解,我们会对大脑做更长远的统一,这是我们后续长期会去做的方向。
另一个是我们现在对语言的交互、泛化理解,随着数据量增加,会越来越多,而且会有很快的迭代,也可以想象其实大语言模型早期也会有一些很傻的行为,当我们收集到更多反馈,收集更多迭代以后,进步会非常快,这其实是我们逐渐使用过程中会快速迭代的一个能力。
郎咸朋:我们也在考虑给不同的车、不同的使用者跟你相类似的驾驶风格的体验,不会所有车都是一套驾驶风格,因为强化学习是有这个能力来支撑它这个车越开越像你的风格或体验,之前端到端可能还不具备这样的能力。不是设定的你自己的路线、你自己驾驶的风格会越开越像你的,我们也在考虑端上的强化训练。
问:在Thor的FP8格式下实现1000TOPS算力,而行业普遍采用FP16处理算子。如何做到将精度从FP16降至FP8时保持模型精度(不掉点)?向FP4演进时需突破哪些关键技术?Blackwell已支持FP4原生硬件,但INT4如何处理?Orin-X等平台缺乏FP4原生支持,如何平衡硬件兼容性与计算效率?FP4实现2000TOPS等效算力后,能否支撑类人感知的帧率(如3FPS)? 关键瓶颈会出现在哪里?
詹锟:我先解释一下,我们把数值精度,首先从FP16或者FP32、FP8和INT8这样去缩减的。
首先这是业界比较共识的一个问题,在大模型领域,大家对数值精度的要求会降低,这也是为什么到LLM领域,大家看到DeepSeek开始推它的FP8,为什么以前不行?也是因为模型参数规模过大,对它的容错变低了,它通过更多的层,更多的数据容量,把之前的异常值降的越来越少,这是大模型一个特性,这也是为什么到VLM、VLA领域以后,大家会逐渐往低精度,更精细的计算密集型的算子上去靠近,这是很大一个变化。如果我们还用原来的方法,那是不太行的,它会要很高的FP32、FP16这样的数值精度,那到VLM才能做这样的事情。
另一个,量化训练。传统的训练一般都会拿FP32去做训练,所以拿出来的参数就是FP32的数值精度。那我们有一个训练过程叫QAT,就是在训练过程中,我把参数就把它变成INT8或FP8,这样的过程中,我们只能用数据精度去做模型训练迭代,这样我们拿出来的模型就能适配模型的推理精度。
以往企业是很难做好的,是因为这个训练过程中会非常不稳定,这里面会有大量的训练框架优化,训练策略的优化才能做。可能我先拿FP32把模型训练收敛了,我用QAT的方式,训练成FP8这样的小数值精度。
另一个很重要的,我们还是做了大量的数据清洗。以往出现这种数据噪点还是因为有脏数据,这也是为什么刚刚说我们还是在1000万上面做,但是我们这里面做了大量的数据清洗、数据储备工作,把不好的数据去掉,这样才能让训练变得稳定、变得收敛,这也是目前像大语言模型大家常规的迭代方向,把数据精度做的越来越精细,把数据清洗得越来越干净,它训练也会越来越收敛。
第一个方向是会往FP8、INT8方面做。另一个,FP4,这也是像英伟达他们这些最先进的芯片提出来的,我们能不能把算力再降1倍,原来是要8个字节才能算一个点,我们变成4个。这里面很重要一点,模型的数值参数范围一定要够小,我们训练要更加稳定,每一次数据用量对待你的模型训练迭代都是有更高的要求,目前看我们是有机会做到这里的。
如果你想做FP4,所以你要在训练上花更多精力,做更多的数据迭代、数据清洗,才能往这方面做。目前我们也在做这样的尝试,很快就可以在把Thor的芯片压榨出来。
回到Orin,由于硬件限制,确实没办法做FP8这样的计算,但是它有INT8。所以我们在Orin上,现在也是用了INT4的量化,再加FP16和INT8的混合精度推理,逐渐把大模型在Orin上部署。再往后走,由于硬件的限制,我们不能在做更多的精度压缩。但是我们会同样把VLA这样的模型体验放在Orin和Thor上同平台。
问:到2000TOPS之后,帧率能不能跑到30帧去?
詹锟:目前来看我们在绝大部分场景10Hz,特别是城市,10Hz是够用的。如果我们算力能用FP4,那肯定是能double20Hz,是可以做到。但是需不需要跑到30,这个我们得看情况,可能有人说特斯拉跑到30,我们了解到它也并不是完整的30Hz,它也有一些其他的方法做这样的东西。那我们还是把反应速度和体检做上来,并不是追求一个简单的数字。
问:理想是国内VLA模型最早落地的车企,肯定也是摸着石头过河,在研发VLA过程中哪方面挑战是最大的,或者花费时间最长?在摸着石头过河肯定有很多流程或什么被验证是错的,就踩过哪些坑?从端到端切换到VLA的时候,可能不仅仅是技术路线的切换,可能整个组织架构也需要调整,理想在研发VLA组织架构进行了怎样的调整?
郎咸朋:我们马上就要交付VLA了,肯定也是国内最早落地VLA的企业。
首先,我觉得挑战最大的是要把整个研发流程进行迭代,每一个技术革新也伴随着研发流程或研发方式的迭代,去年端到端需要一个数据驱动流程,我们之前做得很好,到今年一定要做强化学习的流程,就必须要快速验证我们世界模型的可靠性、有效性,也需要快速搭建我们高效仿真环境。我们今年很多推理卡也需要大量的去购买、去部署等等,我觉得研发挑战最大的除了技术本身之外,是伴随技术迭代的研发流程改革。
组织层面,我们组织并不是大家想象的是一个职能性的组织,还是IPD组织,可以理解成是一个大的项目的形式,虽然大家都在现在部门里可能有一些部门的分工、分配,但不管去年做端到端,还是前年做无图,还是今年做VLA,都是成立了内部项目组来做,对我们来说,组织挑战倒还好,因为大家这么多年也比较习惯于这种项目制的研发了,而且这反而成为我们一种优势,端到端去年是180个人,今年VLA稍微多一点,200多个人,其实并不是弄几千人去做,我觉得不需要,我觉得做得最好的是特斯拉,永远都是那一两百人,做的还都挺好的。
问:后续还有很多国内友商也在跟进VLA,理想在整个研发过程中,踩过最大的坑能给大家介绍一下吗?
郎咸朋:像我们去年做端到端也好,今年做VLA也好,产品自己本身就会说话,今天体验到的这些产品就是我们研发的结果,如果遇到问题,遇到坑的话,不会进展这么快。
非要说坑可能没有,但我觉得这里面有个最大的体验,还是你对整个行业的判断或整个自动驾驶认知决定了你是否会踩坑。
去年也有人问过我类似的问题,我觉得我们是不断持续迭代对自动驾驶甚至人工智能认知的,很早我们就理解自动驾驶问题是一个人工智能问题,我在之前很多会上或对外的演讲上也都提到过,你想做好人工智能必须做好你的算法、数据和算力。
我们第一个要突破的是数据问题,如果没有数据,其实你的算力、算法再好也训不出来,企业不可能空转,你必须有很好的数据。我们从2021年开始做AD的时候就开始搭建自己的数据闭环,所以我们在去年做端到端的时候能拿出这么多数据去做。
但在去年做端到端的时候一直也在反思,是不是端到端就够了,如果不够的话我们还需要再做什么,去年我们一直在研发VLA的一些预研,其实VLA的预研代表的是我们对人工智能的理解并不是一个模仿学习,一定像人类一样是有思维的,是有自己推理能力的,换句话说它一定要去有能力解决它没有见过的事情或未知的场景,因为这个在端到端里可能有一定的泛化能力,但并不是足以说有思维。
就像猴子一样,它可能也会做出一些你觉得超越你想象的事情,但它不会总做出来,但人不是,人是可以成长的、可以迭代的,所以我们一定要按照人类的智能发展方式去做我们的人工智能,我们就很快从端到端切换到了VLA方案去做。
我们一直认知还是比较好的,小坑肯定有,比如算力储备的多少,交付快点慢点等,小的工程细节、优化,肯定各家都会遇到,我觉得遇到小坑其实没有问题,但不要遇到大的判断失误,我觉得我们运气还是可以的。
詹锟:我补充一下,可能也不叫坑,是个经验,还是要相信AI的力量,就是要相信Scaling Law。可以看到开始郎博KN里面有一个,我们之前是相信data Scaling Law,其实我们看到了很好的效果,其实下一步就是现在的test times Scaling Law。当我们能给更多的数据、更大的训练时长,它总能出更好的效果,我觉得这就是一个需要坚信的或者AI界现在叫“the bitter lesson,苦涩的教训”,我们要坚信这个地方。
问:关于芯片您有解释怎么做好量化精度的,但是我好奇的点是,感觉配合Thor芯片上车的过程,应该也不太容易。开始的时候可能连车规也没有,你们双方当时是怎么磨合的?第二个问题,关于云端大模型。刚才有说理想是32B,基于这个大模型,所以推理能力从10步缩减到2步。但是我看有的友商说自己是72B的超大规模参数,世界基座模型,他们是主流模型的35倍。所以这种是越大越好吗?车企到底用多少B的模型是最合适的,判断的维度是什么?
郎咸朋:我们是第一次用Thor芯片上车的,我们也是在过去L9的时候,第一个用Orin芯片。再往前,我们是第一个用J3芯片。其实我们积累的很多跟芯片厂商的供应商的这种合作经验,包括再往前推算J3芯片,当时J3芯片设计很有缺陷。但是我们会跟合作伙伴一起,去做一些优化和迭代,这都是很正常的一个过程。
在这个过程当中,一方面芯片厂商会根据我们的要求,去做一些芯片设计或者芯片本身的一些调整;另外,我们也会根据芯片本身的一些特点,如果它达不到我们的要求,我们也会去迭代算法、方案,针对它进行调整。因为一个新的芯片应用,一定是伴随着一些相互之间的磨合和迭代。
那么J3是我们第一个用的自研芯片,第二个就是英伟达的Orin芯片。Orin芯片其实在刚上来的时候,我们虽然不是第一个拿到了,而且一下子拿到很多。但是我们是第一个量产上车的,第一个交付的,因为他们交付是比我们晚了几个月。我们在整个Orin芯片,从拿到到交付大概用了八九个月的时间,别人可能用12个月以上的时间。
一个方面是我们有很好的工程优化落地能力之外;另一方面,一个新的芯片做出来,一定还是有一些调整的。我们的迭代速度会比较快,我们不会死扣着一个方案不放,我们还会根据芯片自己的特点,去做一些调整和优化。
Thor芯片它是一个全新的芯片,在应用、部署方面有什么问题,我觉得这都很正常的。敢于采用新的首发芯片的企业,它都会遇到这些问题并且把它解决掉,都是工程师之间一些正常的讨论、优化、合作的一些过程。
我们从2021年的第一个量产项目就已经这么做了,到今年也是如此。供应商跟我们的配合也非常好,最早在J3芯片的时候,应该是地平线,也是非常重视,把它的工程师都派到理想来,跟我们一起到测试厂加班合作,芯片问题他们就及时问题,算法问题我们及时解决。
在英伟达的配合里也是一样的,有时候也会做到一起做芯片的一些部署、优化等,我觉得这都是很正常的一些过程,不存在态度上的问题。
英伟达和地平线都是很好的芯片厂商,也都是我们很好的合作伙伴,我们也常年跟他们有很好的合作基础。我们也知道,芯片的产生,它需要有很多输入,我们也在新的芯片研发过程当中,我们也给他提供很多输入,比如J3上的问题,它在J5上解决了;Orin-X问题,可能在Thor上解决了,Thor上问题可能也会在其他的方面去解决。我觉得这是一个正常的研发过程,主要还是看最终的应用情况。
第二个是云端模型是72B好还是32B好。其实我觉得各有各的好,你愿意用,你用15B,我也不拦着你。但是你是否能把模型训练到的能力,蒸馏好了之后,不管用MoE的方式还是用稠密的方式,能落到自己的芯片上,做好优化、量化的部署,并且转换成用户的实际价值。我觉得能做到这点,都是好的应用。
当然,对于我们理解来讲,模型的参数量越大,训练消耗的资源、消耗的东西就会越多,可能效率也会低一点。
另外,如果你还想把一个更大的模型蒸馏成一个非常小的模型,在蒸馏过程当中,它的能力损失也是可能存在的,这里面也很考验各家工程师的量化优化的一些部署能力,我觉得这是研发过程当中的一些过程。
最终,对于消费者来说,我们还是要看最终的产品体验以及最终给用户带来的价值。
湛逸飞:刚才有提到云端大模型的参数量,其实也不完全只看参数量。同样一个参数量的大模型,你给它什么数据也是非常重要的。现在大模型行业甚至有一些大几百B的,都是基于互联网数据去抓取一些通用的数据,而且互联网上的数据污染现在已经越来越严重。我们理想汽车做云端的大模型,我们是有基于自己的这些数据去做训练能力,比如它在驾驶场景的理解上能力,是比那些通用的大模型的能力要强很多。当然,你不会拿我们的云端大模型去跟那些大模型去比编程,因为我们需要的是它对驾驶场景的理解能力。所以在模型参数的基础上,给它训了什么数据也是非常重要的一个事情。
问:我提两个问题,第一个是刚才试乘的过程中,我们遇到一个场景,一个很窄的双向道,我们右手边有一个三轮车,我们跟它说向左变道,车其实是要跨对向车道,但是它没有过去。我听讲解员跟我们说,以前你们是可以过去的,现在它不可以过去。所以我想听一听VLA司机在产品定义和用户价值层面,你们经过了哪些内部讨论和辨证,最终选择了目前这个版本。第二个问题,大家对于VLA这个概念一直有一些讨论。前段时间有人说VLA和好的模型,其实是两个概念。其实大猩猩和老鼠,它们脑子里面都有一个VLA的Model,它是表明可以干这些事情的。但是好的模型,它可能更多是取决于数据和强化学习。背后的技术支撑,其实是强化学习。你们怎么看这个观点?
詹锟:正常VLA它自己能理解这是双向单车道,如果仔细看它的CoT(思维链)过程,我们之前给它的价值观判断或者价值观对齐的数据,就是让它不要在双向单车道去逆行。
之前说,VLA是一个更好的家庭司机,无论在什么情况下,我们还是会以安全、舒适、安心这样的价值观来对齐它。所以在这种情况下去跨逆行车道,我们是不建议的。但是如果需要微调出这样的版本,在技术上肯定是可以的,但是我们还是希望能给到一个更安全、更安心的驾驶体验。如果后面有机会我们会做一些更好的风格或者是尝试,这是目前想给大家展现的一个VLA的价值观和体验。
我觉得刚刚说这个观点还挺有意思的,VLA它是一种模型架构,它并不一定代表好的模型,这个观点我是赞同的。首先,别说VLA了,每个人都说它有端到端,但不是每个端到端都开的很好。任何一个模型,它是什么样的设计思路,只代表了它的想法,但不代表它能落地。所以VLA我们也是说它是全新的架构,但是要训练出好的模型,还要下很大的功夫,我们需要更好的数据、算力、工程部署,才能做出来好的VLA。所以这肯定是一个充分不必要条件,我们希望是有好的模型来迭代它。
刚刚VLA架构我们也说了很多它的优势,相对VA模型,或者端到端模型,VLA模型是有思考能力的,这是它不可否认的一个优势。如果不是用这种大语言模型的预训练、后训练的思路,是很难把这样的知识融进去。所以我们也得承认,这样的架构才能带来这样的能力。
刚刚反复强调在VLA里面,L是非常重要的。我们也认为,自动驾驶想要往L4或者往更高的能力前进,L是一个必经之路。现在无论是大语言模型,还是其他的模型,也都开始做端到端的L。我们在去年年底的时候,意识到这个过程,所以我们在大力的去发展L,而且目前也在VLA里面有很多应用。
问:问题一:在VLA的训练中,在语言模型上是怎么避免大模型由于跟人类理解不同从而产生的反常识或者反人类习惯的生成指令,我们是如何解决的?问题二:在后续的强化训练中,理想用一组24的案例去证明,那我们是以什么样的标准决定这个case是训练OK的?问题三:VLA在理想i8上首发,同时也是i8的核心卖点之一,如果您作为智驾的缔造者,您是怎么去看待用什么样更好的方式,去跟司机沟通,相互信任的感情也好,或者吸引顾客愿意购买,去展示我们VLA的功能
詹锟:首先以现在的技术而言大模型已经有了一些初步的共识方法和思路。
第一,我们需要对不好的数据做精细的清洗,清洗的越多,质量就越好。
第二,合成数据。之前会有很多大语言模型会有幻觉,本质上因为“大模型”对这个东西是不理解的或者没见过的,在它这个领域之外回答问题。所以我们需要构建很多数据,甚至合成数据,去让它把这个领域理解到位,能把所有的知识能够知道,甚至知道它什么不知道,这是它很重要的一个能力。
通过这两个思路,其实大幅能降低语言模型的幻觉能力,甚至反常识的东西。
第三,超级对齐,让它去更做到符合人类价值观,比如刚刚那个例子,不能跨对向车道,就是类似的思路,这是第一个问题。
湛逸飞:首先只有完整的走过这种闭环仿真的整个流程玩家才能真正的去做强化训练。
因为我们是在闭环仿真这个系统搭建起来的过程中积累了一套非常完整对车辆行为判断的一套系统,这套系统甚至还用了刚才提到的这些云端的32B模型,不仅是蒸馏完以后给车端用,在云端用这些大的模型去做推理、判断这个车在仿真环境里的行为是否正确,同时我们从很多的维度,包括“安全、舒适、合规、效率”等,对车辆的行为做一个评价,总体来给出一个打分,我们也叫reward,目的是告诉他这个车在仿真环境里。
郎咸朋:第三个是i8首发的问题,i8首发我们当然也希望VLA会成为用户购买i8的一个非常重要的因素,同时也会致力于首先让之前用过理想智驾的老用户有个非常好的体验升级,其次也希望有更多没有用过辅助驾驶、自动驾驶的用户一上来就会对智驾有很好的感受和新鲜感。
刚才也提到了通过VLA技术架构的一个能力升级,更多是想给用户带来实车体验的升级,包括“舒适度、安全感”两个最核心的指标,其次还有“可交互性、驾驶能力、技巧”等的提升。
它是一个综合维度体验的提升,你刚才提到思维链的一些展示,如果有人喜欢琢磨、喜欢研究VLA的过程是怎么回事的话,我们给他展示出来让他可以去看一看,如果有的用户对这个不是特别感兴趣,只是讲究开车时的安全体验的,首先他站在之前端到端基础上,一定会比端到端基础要好的前提下再持续提升VLA的体验。
所以,让我们的用户体验会越来越好,而且我觉得它的这种体验需要有一个过程,这个过程就是原来从10MPI到100MPI,现在从100MPI到1000MPI,有可能100到200你可能还没有太大感觉,但我相信100到1000的感觉还是绝对可以体验出来的,就像去年端到端和现在的端到端你肯定有很强的体验。
问:问题一:今年下半年开始,各家车企,包括友商都会推进VLA,理想对于VLA这个技术的优势或技术壁垒是什么样的?问题二:理想对VLA司机的定义是一个更好的家庭司机,一个安心的移动空间,未来VLA技术会不会拓展到别的产品线或一些服务过程中,撇开商品车之外的那些服务?
詹锟:第一个是我们的技术栈是有延续性的,并不是从之前的规则时代突然跳到VLA,那它肯定会有各种各样的问题,比如有没有把数据积累上来,有没有那么好的训练,有没有那么好的仿真评测系统等等。我们现在做VLA其实是一个延续性的技术架构,甚至把原来的优势都利用起来,站在巨人的肩膀上继续做。
第二,我们在RD预研方面其实投入非常多,VLA在自动驾驶领域是相对新的一个方向和领域,从去年年底到现在做了相当多预研,无论是在各个顶会上的论文,一个是我们在研发上面也专门立了TBP的项目,来推进VLA的技术探索,这块其实是我们一直在坚持的“预研一代、研发一代、交付一代”的思路。所以从时间上来说,我们VLA起步相比其他友商或者竞争对手更有优势。
第三,我们相信VLA在未来会形成一个更大的、统一的架构。我们也觉得VLA是在对物理世界AI落地来说,是非常好、非常一致性的前瞻技术,并不仅仅是自动驾驶,可能是物理AI目前看到最合理的一个方向。
郎咸朋:补充两个点,第一技术壁垒肯定是有,理想最核心的技术壁垒还是世界模型仿真的壁垒,这个壁垒是非常高的,别人很难短时间去复制出来。因为它的迭代速度得确保,且还得用实车去测试,所以是很难超越我们的。
第二,这肯定是可以拓展的,我们也成立了各种其他的机器人部门。VLA是一个很好的具身智能的技术框架,可能可以延续到其他方向。
问:Orin X后续版本的推送是同步的,还是会有差异;另外,Orin X去推VLA的时候,它的能力上限在你们内部去考虑,后续多长时间它会和Thor U拉开差距,还是一直去保持同步的更新。
郎咸朋:我们是同步推送的,这次如果i8上线的时候,老用户AD Max的车主,包括2022年买车的,只要你是Orin X的芯片或者Thor芯片,都会同步的推送。目前测试来看在能力上是没有任何差异的,帧率上也没有差异,我们做的工程优化都非常好,都是10帧的。唯一的差异就是i8的底盘跟L9的底盘是有些差异,舒适度的体验上可能是有一些不同。
后续的推送节奏也是同步的,就是Orin平台和Thor平台都是同步来推送。至于什么时候能拉开差异,我们现在肯定不会做这种差异化。但是随着下一步的迭代,如果我们在INT4的量化上有一些突破,那个时候可能会有一定差异,但是现在谈这个还为时尚早。
问:问题一:VLA截止目前没有发布明确的规划是因为商业的因素还是现在的效果还达不到你们的期待?问题二:今天体验过程中感觉有一些很明显的不足。比如有些障碍物,还没办法识别。我们今天体验的这一版实车,在你们心里的评分大概是多少?要达到多少分,你们认为才可以大量的推送给用户。
郎咸朋:我们一定会比友商早,我们一定是第一个。
关于第二个问题,我们内部是有一个打分的机制,以仿真为例,现在是全面先对标OTA7.5,OTA7.5是我们在端到端上最后一个版本。这个版本的得分,内部是有评分的,我们在推出第一版VLA的时候,包括大家今天试驾这版的VLA,它在我们内部的打分已经全面超越了端到端7.5、OTA7.5的。但是在一些小的分数上,可能有一些波动的。在整体的打分情况上,这个版本已经超越了端到端一点点。
但是我们在真正推送用户之前,我们会做到一个明显的效果提升。今天大家试到的是我们特意让大家先试一下我们在舒适度上的一些提升,如果大家比较熟悉车,肯定是能体验出来的。接下来我们会在“安全、合规、导航、效率”等等方面,我们会在自己的一些维度上都会有较大幅度的提升。
让熟悉我们车的人买i8一上车就会有非常大的体验。让没用过辅助驾驶的人,使用辅助驾驶的时候,也会有很强的安全感和安心感,而且还有很强的舒适程度。但是内部的评分标准,我们是自己有自己的评分标准。
问:提问一个关于数据的问题,在仿真加进来并且它发挥的作用越来越大之后,理想是怎么定义所谓的优质数据或者什么是不好的数据,是不是说对模型迭代有促进作用的数据就叫优质数据,但这个定义可能又太宽泛,理想有没有一些可以量化的衡量标准。
湛逸飞:我们需要的数据用一个词总结叫“老司机数据”。在训练过程中,对数据的筛选。从去年端到端开始一直到现在,我们在云端有很多程序,甚至是云端的大模型,对这些数据进行检查,来检查他们是否符合我们所定义的“老司机”的标准。比如他在正常行驶的时候,不可以不居中。
举一个例子,望京地区有一些右转车道上有违停车道,我们到底需不需要这个车辆可以压着实线绕行过去,如果不压着实线绕行过去,你在望京地区可能就没法完成右转。所以我们对这些数据的理解,是花费了很大的功夫,在这个基础上做了很多清洗,总量还是1000万,但实际上这里面是在进行不断替换的。
郎咸朋:我们有实验模型之后,像corner case以及一些困难场景的数据,我们会通过合成数据来提供。
刚才你说是不是能提升性能数据就是好数据,你刚才问了这样一个观点。从某种意义上说是,但是在端到端的时候就是这样的。但是在端到端的时候,我们的数据更多是用来训练端上的模型,但是到了强化学习之后,数据其实更大的作用是来训世界模型,让世界模型变的更加符合真实世界。
我们更多的训练数据是来自于合成数据的。因为我觉得量上来说,或者类别来说,已经足够了。但是在细分的类别上,还是需要更多的用合成数据来补充我们的训练。
各家做的也都不太一样,5年前确实理想作为一个追随者进入了自研的自动驾驶赛道,但我们对自动驾驶的思考并不是从2020年开始的,我们刚进理想的时候,当时李想面试的时候跟我聊,说你觉得最重要的是什么,比如想在自动驾驶做成功或者做到第一?
我说现在来看就是数据,虽然说别的都很重要,但数据必须要提前开始准备,我们是从理想ONE开始做数据闭环的一些工作,当然那时候数据还比较少。给大家公布一个数字,其实2021年大家也觉得我们做的挺快的,虽然一些地平线芯片的加持,有一些可能当时做的ADAS也不是特别难,但有工作量很大,那时候我们训模型的数据并不是买了个数据什么的,而是在2020年我们通过第一个完整的交付年,累计了1500万左右的有效回传数据,我们确实做了很多数据标注,样本是从这积累出来的。
从那开始慢慢往后做,这5年做下来,从去年端到端开始,业界或我们的竞争对手真正把理想自动驾驶当回事了,但他们为时已晚,因为这些能力建设不是一天两天就能完全建立起来或者达到我们效果的,今年开始做VLA,我们是第一个提出并马上是第一个交付的,很多人还在嘴上说,还在用端到端的方式去做VLA。
刚才我画了一个图想表达一个观点如果还是沿着端到端思路去做所谓VLA的话,你的速度一定会变慢,不管是1000万,还是2000万,哪怕是1个亿的Clips,首先你要训1亿个Clips需要多大的训练算力,模型搞到多少先不说。另外,你的迭代速度会变慢。
如果你没有很好世界模型、仿真环境,这个世界模型不是部署在车端的,是在云端的,云端的世界模型真的是帮助我们算法训练的,模拟了一个真实的物理世界,我们现在是场景的生成,在结尾处我们给它秀了一段1公里×1公里的完整的区域仿真,如果再做的完善一点,我们最终的目标是让我们算法在模拟世界里跑极品飞车,像《SimCity》,是模拟的一个城市环境。我们希望在我们生存的世界里是一个完整的Agent,是智能体,有车来撞它时它会躲,有什么人走过来它会让什么的。所以我刚才秀了一段我们3D资产,就是每一个里面的交通参与者,我们是精致到我都有他的3D模型,并且赋予他Agent的智能体,所以他在我的环境里不管是静态的东西,还是动态的东西是一个完整的、真实的物理世界的“纯仿真、纯模拟”,如果达到这种程度,我把我的车,我把我的算法在这里面,就相当于他在这个环境下跑一天等于你在真实世界里跑好几年的训练速度,那时候会非常快。
所以,我觉得VLA现在可能看起来很慢,就像去年端到端一样,其实端到端已经非常快了,从2021年我们走到端到端走了3年多时间,其实还是站在巨人的肩膀上,如果再往前走,整个行业如果从规则算法走到端到端的话,我可以说走了10年左右,但是从端到端开始迭代会非常快,因为那时候整个工程、整个数据都会成熟起来,到VLA,我认为也是这样一个速度,大家可能现在感觉VLA还没有什么感觉,就是做了一个比端到端稍微好一点的一个感受,但一年之后你看到一个1000MPI的产品放在你面前的时候,相信大家都会觉得自动驾驶真的来了。我相信在这里面真正有技术、真正有能力、真正有责任心的企业一定会率先跑出来,我相信理想肯定是这里面第一个会走出来的。
问:提问一个关于移动空间的问题,我们今天体验的版本MEGA移动空间和i8的行车是基于同样的模型吗?
郎咸朋:是同样的模型。
问:问题一:关于仿真数据,有报道说特斯拉为了拿到更优质的数据或者没有受过污染的数据,请了几百个老司机天天在外面开,通过这个数据来训练它的模型,而我们现在把大量的精力都放在了仿真上,我们有没有类似这种让专门的老司机给我们送“老司机数据”?问题二:用仿真学习的话,从第一轮训练出一个实习司机,到第二轮就能训练出一个老司机,这个过程大概要多久?是一瞬间就可以完成吗?
湛逸飞:第一个问题,强化学习的过程其实就是每一轮每一轮的仿真,我们每一轮会给它一个打分,一个reward,这个reward会反向去改变模型里的一些参数,这个模型参数改变以后,我们又会把它拿过来仿真,它再产生一个新的行为,这是一个循环交替的行为,至于什么时候结束,其实不确定,直到它通过了我们整个在仿真环境里的metrics,我们就会判断这个场景的训练完成了,它已经学会了这个场景,所以并不是一个瞬间完成的,也不是一个固定长度的,还可以理解为跟这个场景的难度是相关的。
郎咸朋:第一个问题,我觉得可能是传言、听说之类的吧。但我觉得我们最好的老司机就是我们的车主,我们都是取之于民,用之于民的。
我们有很大的精力在我们车主里去挑选老司机的数据,不是老司机开的时时刻刻都是老司机,也不是新手司机时时刻刻开的都不可用,主要看你怎么从沙里淘金的过程,我们的用户数据是一个很大的金矿,但金矿里是掺着沙子的,看你怎么把这个金子淘出来,如果只让一帮人给你掘金,可能太慢了,可能也不够丰富。
问:大家都说多模态模型还没有进入所谓的GPT时刻,无论是对世界的理解还是数据的训练,虽然大家都模模糊糊看到一个方向,但具体怎么做没有一个明确的解法,这时候你们需要做一个量产方案去推送到市场上,你觉得这个方案是一个足够好的解法了吗?以及它抵达所谓的GPT时刻还需要花多长时间?
詹锟:首先回答一下我们多模态之前说没有达到GPT时刻,可能指的是VLA这种物理AI,而不是VLM,其实现在VLM已经完全满足一个非常创新的GPT时刻,如果针对物理AI,现在的VLA,特别是在机器人领域、具身领域可能并没有达到GPT时刻,因为它没有那么好的泛化能力,但在自动驾驶领域,其实VLA解决的是一个相对统一的驾驶范式,是有机会用这个方式做到一个GPT时刻的,我们也非常承认现在的VLA是第一版本,也是业界第一个往量产上要推的VLA版本,肯定会存在一些缺陷。
这个重大尝试是想说我们想用VLA来探索一个新的路径,它里面有很多尝试的地方,有很多需要去落地的探索的点,不是说不能做到GPT时刻就一定不能去做量产落地,它有很多细节,包括我们的评测、仿真去验证它能不能做到量产落地,能不能给用户“更好、更舒适、更安全”的体验,做到以上三点就可以给用户更好的交付。
GPT时刻更多指的是具有很强的通用性和泛化性,在这个过程可能随着我们自动驾驶往空间机器人或往其它具身领域去拓展的时候会产生出更强的泛化能力或者更综合的统筹能力,我们也会在落地以后随着“用户数据迭代、场景丰富、思维逻辑性越来越多、语音交互越来越多”逐渐往ChatGPT时刻迁移,不是一定要达到GPT时刻才能做一个自动驾驶模型,比如我们落地了VLA以后不能往ChatGPT去迁移,这是我们VLA落地第一个版本后逐渐会往“更丰富、更通用、更多样化”能力去做的VLA模型。
像郎博说的到明年我们如果到了1000MPI,可能会给用户感觉真的到了VLA的ChatGPT的时刻。
(本文作者长期关注理想汽车,如对理想汽车有兴趣,欢迎添加作者微信Hugh-wangruihao交流。)
相关文章
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读
2025-08-020阅读