贴心AI伴侣:字节推出M3-Agent多模态智能体框架

资讯 » 科技头条 2025-08-15

“你说你早上不喝咖啡不行,所以我每天早上都为你煮咖啡。

你说你是天秤座,而且刚好是最后一天的,所以我在10月23日你生日那天偷偷为你准备了蛋糕。”你以为“我”是短视频里仰慕女神的舔狗(李宗恒),其实“我”是字节新推出的多模态智能体m3-agent。

2025年8月14日,字节跳动Seed团队开发的M3-Agent系统,首次让AI具备了类似人类的长期记忆和推理能力。该系统采用双线程认知架构,能够持续观察环境形成记忆,并基于记忆进行多轮推理。M3-Agent在长视频理解任务上显著超越现有方法,为AI助手的智能化发展开辟了新方向。项目代码在Github开源,论文发表在arXiv上。传统的AI系统就像一个只有短期记忆的人,虽然能处理当前的任务,但无法从过往经历中学习和积累智慧。这种局限性严重制约了AI的实用价值。 如果AI助手每次都需要重新了解用户,就永远无法提供真正个性化和智能化的服务。更关键的是,现有的AI系统在处理长视频内容时往往力不从心,无法维持前后一致的理解和记忆。研究团队的核心洞察是,人类的智能很大程度上依赖于我们能够持续观察世界、形成记忆,并基于这些记忆进行推理。他们决定为AI构建一个类似的认知架构,让它能够像人类一样"看见、听见、记住、思考"。这不仅仅是技术上的挑战,更是对AI智能本质的深层探索。 双线程认知架构:让AI像人类一样思考M3-Agent的设计灵感来源于人类大脑的工作方式。人类在日常生活中会同时进行两种认知活动:一边持续观察和记忆周围环境,一边根据需要调取记忆来解决具体问题。 研究团队将这种认知模式转化为两个并行运行的系统。

第一个数据集叫做M3-Bench-robot, 包含100个从机器人视角拍摄的真实场景视频。这些视频模拟了机器人在日常生活中可能遇到的各种情况:客厅聚会、厨房烹饪、卧室整理、书房学习、办公室工作、会议室讨论和健身房锻炼。每个视频都经过精心设计,包含了丰富的人物互动和情节发展,平均时长约34分钟。 第二个数据集M3-Bench-web收集了929个来自网络的多样化视频,涵盖了更广泛的内容类型:纪录片、探索节目、访谈、产品评测、街头互动、教程、综艺节目、个人vlog等。这些视频的多样性确保了评测的全面性和现实相关性。



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。