市场资讯
(量子位)
蛙趣!还得是OpenAI总裁亲自爆料啊…
Sora“世纪大关门”后,全网热议OpenAI此举背后动机,本以为这是为了IPO而进行的战略收缩。
结果联创兼总裁Greg Brockman直接放料——其实是为了一个“蓄谋已久”的Super App
而且不止告诉你这个Super App长啥样,连即将到来的新模型“Spud”(中文名土豆?)也没憋住。
等等,如果你和我一样,以为“Spud”不过是又一个“GPTxxx”,那就大错特错了!
Greg已经说了,这是个重新预训练的模型,凝聚了OpenAI过去两年的心血智慧——等上手你就会意识到,它将变得有多聪明且“顺从”。
还没完,Greg还聊到了OpenAI今年的大笔融资、和A社家对B端用户的争夺……
以下为播客实录精校(感谢AI),在不改变原意的基础上做了适当编辑。
对话实录精校
为何放弃Sora?
主持人:现在外界看到你们放弃Sora转向Super App,为什么?
Greg:过去我们一直在两条线并进:一是研发深度学习技术,看它能否产生我们设想的积极影响;二是尝试部署这项技术,为业务提供支撑,积累真实世界的落地经验。
现在我们到了一个节点——技术已经验证可行,不再只是跑benchmark、做智力演示,而是必须进入真实世界,通过人们实际使用来获得反馈,才能继续推进。
所以这是一个更大的战略调整,不是因为我们要从消费端转向B2B,而是因为我们不能什么都做。我们要聚焦那些能形成协同、真正产生影响力、能帮助每个人的应用
主持人:你曾把OpenAI比作迪士尼,以模型为核心(像米老鼠),然后衍生出视频、助理、企业服务等。现在是无法兼顾了吗?
Greg:实际上这个比喻依然成立,而且某种程度上反而更适用。但从技术层面看,Sora视频模型与GPT系列(核心推理模型)是技术树上不同的分支。
我们确实还在继续做Sora的研究,但它是放在机器人领域里推进的——机器人目前仍处在研究阶段,还没成熟到未来一年就能在知识工作领域大规模落地。
所以我们当前的战略是:把主要精力放在GPT系列上,这不仅包括文本,也包括语音等交互,这些都是在同一个模型上做微调,而不是另起新枝。在算力有限的情况下,同时推进两个差异巨大的产品分支非常困难
主持人:那你为什么不押注Sora这条路?视频生成进步这么大。
Greg:现在最大的问题是机会太多。我们在OpenAI很早就发现,只要逻辑在数学上成立,几乎所有想法都能奏效,这就是深度学习的迷人之处。
但重点在于排序和时机。我们已经确信文本模型可以走向AGI——AGI就在眼前,今年还会有更强的模型。
比如最近,一位物理学家研究了很久的难题,OpenAI模型在12小时内就给出了解决方案。这种“思考”的能力让我们必须加倍下注。这不是说哪个方向不重要,而是OpenAI肩负的使命是把AGI带给世界,我们要做的就是把这条技术树推到底。
主持人:DeepMind的哈萨比斯曾说,图像生成器最接近他心中的AGI,因为它们必须理解物体间的互动。OpenAI会不会因为只押注一条路径而错失什么?
Greg:在这个领域你必须做出选择。OpenAI从一开始就决定了自己相信的AGI路径。而且,图像生成也是ChatGPT的重要功能,但我们是基于GPT架构而非扩散模型来实现它的。
所以我们要做的是尽可能统一技术栈,这样才能支撑起整个经济——OpenAI做的是“通用”人工智能,G就代表这个意思。
Super App到底长啥样?
主持人:那Super App具体会是什么样?
Greg:它将整合编程、浏览器和ChatGPT。我们希望为你构建一个能让你体验AGI力量的端点应用。它不仅是一个工具,更是你的“个人助理”,它了解你、与你的目标一致、值得信任。
以前Codex只是软件工程师的工具,现在它将变成每个人的工具。你想让电脑做什么,直接告诉它就行,电脑会顺应人类,而不是人类顺应电脑。
主持人:这不仅是针对商业,也针对个人生活?
Greg:没错,就像你的笔记本电脑既用于工作也用于生活。未来的Super App会有记忆,它连接你的邮件、日历,知道你的偏好,从而更深层次地帮你达成目标。
主持人:什么时候推出?
Greg未来几个月会分步推进。起点就是Codex应用——它既是通用的智能体框架,能调用各种工具,又擅长写软件。这个通用框架可以接入电子表格、Word文档,帮你完成知识工作。在OpenAI内部,我们已经看到很多人自发用它来做这些事。第一步就是让Codex对普通知识工作更友好,后面还有很多步。
怎么看待和Anthropic的竞争?
主持人:像Anthropic已经有了Claude Code等类似Super App的功能。OpenAI觉得自己赶上来了吗?
Greg:如果回看12到18个月前,OpenAI一直很重视编程这个方向,在各种编程竞赛上成绩最好。但当时没怎么投入“最后一公里”的易用性——AI虽然能解竞赛题,但没接触过真实世界的代码库,那些代码杂乱无章,不像它训练时遇到的那样规整。
去年年中我们才真正认真补上这一块,专门组建了团队,聚焦真实世界的各种问题,构建训练环境,让AI体验实际软件工程中会遇到的中断和混乱。
到现在,当与对手面对面竞争时,用户往往更倾向于我们。OpenAI正在往前赶,这个问题会解决的。
主持人:你们怎么看待竞争?现在对手追上来了,公司内部氛围变了吗?
Greg:我在OpenAI最恐惧的时刻,其实是ChatGPT刚发布后的年会,当时大家觉得“我们赢了”。我当时想:“不,我们一直是挑战者(Underdog)。”现在的竞争环境其实非常健康,它让我们保持谦逊和统一,不再有“支线任务”,全神贯注于核心目标。
我从不觉得我们像外界说的那么好,也从没那么差,始终很平稳。模型这块我对我们的路线图非常有信心,产品这边也能量十足,一切都在汇聚。
传闻中的新模型“Spud”
主持人:传闻中的新模型“Spud”是什么?
Greg:其实重点不是某一个模型。“Spud”代表了OpenAI过去两年的研究成果,是一个新的预训练模型。但它只是一个节点,引擎的进步速度会越来越快。
主持人:它能做哪些现在的模型做不了的事?
Greg它能解决更复杂的问题,理解力更强,对上下文把握更好
人们常说“大模型感(Big Model Smell)”——模型更聪明时,你会感觉它更懂你。你问一个问题,AI没听懂,这很让人沮丧。现在它会更少让你重复解释。它既能拉高天花板——解决更开放、时间跨度更长的问题,也能提升基础体验——让你做任何事都更顺手。
主持人:普通用户能明显感觉到变化吗?
Greg:会是一样的情况——有些人用起来觉得天差地别,有些应用本来就不是卡在智力上,变化没那么明显。
但关键是你的心智会慢慢改变。比如有朋友被诊断为绝症,医生说他没救了,他用ChatGPT研究不同方案,最终找到了治疗途径。这种场景里,你得先相信AI能帮上忙,才会投入精力去用。随着技术变强,这种“能帮上忙”的感知会越来越明显
即将在秋季推出的“AI研究员”
主持人:你们内部还在做一个自动化AI研究员,计划秋季推出。它具体做什么?
Greg:现在我们处在技术起飞阶段——AI越强,我们越能用AI来改进AI,开发速度不断加快。同时芯片厂商在加码,生态里的人在探索各种应用,所有这些能量汇聚在一起,AI正从经济的一个分支变成主要驱动力。
这个研究员,本质上就是把研究科学家的整个工作流程在硅片上实现。它现在已经能承担相当比例的科研任务,我们可以让它自主运行,但不是说撒手不管——就像带初级研究员,你得给他方向、审阅他产出的结果,而不是完全放养。
主持人:AI从渐进式进步到势不可挡地超越人类智能,你不担心出问题吗?
Greg:当然担心。获取技术收益的同时必须考虑风险。技术上我们投入了很多在安全上,比如提示词注入攻击——一个很聪明的AI如果连了很多工具,不能被恶意指令利用。这方面我们有很好的团队,也取得了不错的成果。
有些问题其实可以类比人类——人也容易被钓鱼、被欺骗、看不清全局。我们在研发和发布模型时,都会用这些类比来思考如何确保对齐。当然还有更大的问题,涉及整个经济和社会,不是OpenAI一家能解决的。
主持人:你曾说过很多人做对很多事才能创造,但一个人心存恶意就能破坏。奖励真的值得风险吗?
Greg:我认为值得,但这个答案太粗糙了。从OpenAI一开始我们就在问:一个好的未来是什么样的?
一条路是集中化,只有一家在开发,这样压力小、能确保安全后再推向所有人,但这本身很难让人接受。
另一种是构建一个“有韧性的开放系统”,很多参与者共同开发,同时围绕技术建立社会基础设施——就像电,很多人生产它,有危险,但我们建立了安全标准、监管体系、检查机制。
AI也需要广泛的对话,让所有人参与进来,而不是由某个中心化的小组秘密完成。这是我们一直相信的方向。
主持人:黄仁勋说AGI已经实现了,你同意吗?
Greg:不同人对AGI定义不同。如果用我个人的定义,我可以说已经完成了70%到80%。极其明确的是,在未来几年内我们将拥有AGI。它能完成你在电脑上进行的几乎任何智力任务。
Agent带来的变革
主持人:去年12月发生了什么,那好像是个转折点——让机器连续编码几小时从理论变成了现实。
Greg:新模型发布后,AI从能完成20%的任务跃升到80%。这带来了巨大变化——从“有点意思”变成“你必须围绕AI重构工作流”。
我自己有一个测试提示,用了很多年:帮我建一个网站。这个网站我当年学编程时花了几个月才做出来。后来用AI,前后四个小时,反复调整提示。到了去年12月,一次提问,它直接生成,而且做得很好。
主持人:模型是怎么实现这种跨越的?
Greg:基础模型变强了。这是我们长期投入预训练的结果,那只是今年一系列进展的前奏。
但也不只是某一点,我们在每个维度上都在推进。它并不是从0到80%,而是从20%到80%。而且这种进步还在继续,比如从5.2到5.3版本,一个做底层系统工程的同事,以前AI根本搞不定他做的事,现在不仅能给出设计方案,还能直接实现、加指标、跑性能分析、持续优化,最后出来的东西就是他想要的。
可以说是“一点一点,然后一下子”。
主持人:OpenAI后来把OpenClaw的创始人请进来了。这是不是意味着“AI替你管理生活”就是你们的愿景?
Greg:这项技术最核心的难点,其实是搞清它怎么才能真正帮到人、人们想怎么用、智能体的未来长什么样。
据我观察,在这个领域,真正投入、充满好奇、有远见的人,是非常稀缺且有价值的。Peter就是这样的人。
所以与其说我们看重某个具体技术,不如说是看中他如何把这些能力真正融入人们的生活。作为技术人员我觉得这很激动人心,但从服务用户的角度,我们也在全力投入这件事。
主持人:你曾说使用AI Agent就像成为“管理数十万Agent的CEO”。这会不会让人失去对问题的实际掌握?
Greg:我觉得有利有弊。你可以把机械的细节交给Agent,就像房主信任施工队一样,但你不能放弃责任。你必须主动保持对优势和弱点的把握,只有在信任某个系统能做好的前提下,才能放心把那些低层次任务交出去。
主持人:你们经历了预训练、微调、强化学习,让模型一步步学会解决问题、使用工具。接下来是什么?
Greg:接下来是能力的不断加深,比如让AI真正能操作电脑,做任何你能做的事。但同时我们还要建设企业级的身份认证、审计、可观测性这些配套技术。
除此之外,我们还在推动语音交互,让对话像现在这样自然,你一早起来它就能给你汇报Agent昨晚的进展。我觉得这会是一个巨大的应用场景。比如它会告诉你“有个客户不高兴了,想跟真人聊聊,你得去处理一下”。这些都会实现。
更远一点,是提升人类解决挑战的“天花板”,我们已经能看到端倪。就像AlphaGo的“第37手”,人类从未想过的下法,改变了整个棋局的认知。这样的突破会在每个领域发生,它们会打开我们对创造力和想法的理解,远超我们现在的想象。
主持人:既然模型已经这么强了,为什么这些突破还没有发生?
Greg:因为我们还在理解这些模型能力的阶段。即使技术不再进步,现有的能力也足以引发巨大的经济转型。以前我们只在有明确答案的任务(如数学、编程)上训练,现在我们正扩展到开放式问题(如创意写作)。
还需要预训练吗?
主持人:随着OpenAI转向Agent型应用,有人开始讨论,是不是不需要那么大规模的预训练了?模型够好之后,让它出去自己学就行,不一定要建那些超大数据中心。你负责这方面的战略,怎么看?
Greg:这种看法忽略了一个关键点:模型生产流程的每一步都是相乘效应的。更强的预训练会让后面的所有步骤都更轻松。模型初始能力越强,学得越快,在试错过程中犯的错也越少。
以前我们只关注预训练,没太考虑推理能力,但过去两年我们意识到,这两者要平衡。你可以在基础模型上做得很强,但同时也得让它能高效推理,用于强化学习和对外服务。
所以你不一定要无限做大,而是要找到“智能×成本”的最优解。
主持人:如果未来主要靠推理,还需要NVIDIA的GPU吗?
Greg:绝对需要。一方面,无论训练和推理的配比怎么变,大规模训练仍然需要集中大量算力。另一方面,NVIDIA团队非常出色,我们和他们深度合作。
主持人:会不会有一天,大家觉得“模型已经够聪明了,不用再预训练了”?
Greg:那得等到人类解决了所有问题才行。我们这五十年其实把很多雄心放低了。比如“让每个人都能享受医疗”——不只是治病,而是预防,是提前发现潜在疾病。这完全可以通过更智能的模型实现。
到某个程度,也许你会说“不用再翻倍聪明了”,但总会有新问题提出更高的要求。
为什么重金押注算力?
主持人:今年你们融了1100亿美元,这些钱是直接投到数据中心吗?这笔钱怎么回馈投资者?
Greg算力不是成本中心,而是收入中心。就像招聘销售人员,只要你能卖出产品,雇的人越多收益越大。我们发现算力的增长永远赶不上需求。
主持人:这种前所未有的投入,你很有信心吗?
Greg:历史已经证明了这一点。从ChatGPT发布起,我的团队问要买多少算力,我的回答一直是“全部”。我们要projection(预测)未来。现在的收入主要来自个人订阅,但知识工作的企业市场正展现出惊人的支付意愿。
主持人:现在消费者订阅是OpenAI最大的收入来源,未来企业业务会反超吗?
Greg:我觉得“企业”这个概念本身也在变。重要的是人们用AI做“知识工作”。比如现在ChatGPT的消费者订阅也可以使用Codex,所以界限不会那么清晰。将来就像你的笔记本电脑一样,是你接入数字世界的入口,收入自然也就跟着来了
主持人:Anthropic CEO说过,有些玩家“过于冒进”,把杠杆拉得太满。他应该是在说你们的基建投入,你怎么看?
Greg:我不同意。我们一直非常审慎,也一直在前瞻性地判断技术走向。今年大家都会看到,所有参与者都会面临算力紧缺。我们是预判到这一点、最早开始布局的。其他玩家大概去年底才反应过来,匆忙去找算力,但那时候已经没什么可用的了。
主持人:有人觉得如果预测出一点偏差,公司可能就破产了,你们也面临同样的情况吗?
Greg:我觉得其实有更多的缓冲空间。担心下行风险是合理的,但我们的押注不只是针对某一家公司,而是整个行业——你是否相信这项技术能创造我们看到的那股巨大价值。
软件工程领域的变化已经很明显了,如果你不是工程师,没试过Codex,真的很难描述那种差别。六个月前我们内部看到了这些趋势,但外部证据还不多,现在证据已经出来了。
再过六个月,所有人都会感受到,然后大家都会发现,明明有很厉害的模型,却没有算力可用。
主持人:AI在公众中似乎并不受欢迎,很多人担心失业,你担心AI的品牌形象吗?
Greg:我们需要向国家展示AI如何改善生活。比如有人用ChatGPT协助诊断出了孩子被误诊的脑瘤,这些故事被讲得太少了。
关于数据中心,很多人担心环境和电费。这里有很多误解,比如水资源消耗其实非常小。我们承诺会支付自己的能源费用,不推高居民电价。甚至在某些地方(如北达科他州),数据中心的到来帮助升级了陈旧的电网,反而降低了居民电费。
如何为AGI时代做准备?
主持人:如果现在有一个害怕AI的人,他可能觉得AI会抢走他的工作、污染他的社区、让世界变得太快。你有什么想对他说的?
Greg第一件事就是亲自去试试这些工具。只有真正体验过现在的AI,你才会明白它能为你做什么。人们总是更容易看到“会失去什么”,而不是“会得到什么”,但我觉得值得给它一个公平的机会,去理解天平的两端。
主持人:如何为未来做准备?
Greg最重要的还是理解这项技术。我们观察到,最能从AI中受益的人,都是带着好奇心去尝试、真正把它融入工作流程的人。
他们克服了“面对一个空白框不知道干什么”的阶段,培养出一种“我可以当管理者”的意识——我可以定方向、分派任务、做监督。
这项技术是为人类设计的,最终是为了帮助人类建立更多的连接,让人有更多时间做自己想做的事。关键就在于搞清楚——你到底想要什么?然后借助这项技术去实现它。
相关文章
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读
2026-04-063阅读