AI 科学家发布《上海共识》,AI 失控并非科幻

资讯 » 科技头条 2025-07-26


雷峰网讯 第四届人工智能国际安全对话(International Dialogues on AI Safety,IDAIS)于 2025 年 7 5月 25 日在上海举行。杰弗里·辛顿、姚期智及全球人工智能科学家齐聚上海,呼吁应对人工智能失控风险,加强国际合作。

本届对话聚焦于“确保高级人工智能系统的对齐与人类控制,以保障人类福祉”,诺贝尔奖和图灵奖得主 Geoffrey Hinton,图灵奖得主,清华大学交叉信息研究院和人工智能学院院长,上海期智研究院院长姚期智,以及加州大学伯克利分校 Stuart Russell 教授,上海人工智能实验室主任周伯文教授等人共同发布了《AI 安全国际对话上海共识》(下称《共识》)。其核心观点强调当今已有部分人工智能系统展现出削弱开发者安全与控制措施的能力与倾向,并呼吁国际社会投资安全科学领域,为应对通用人工智能系统的失控风险持续构建国际互信机制。

与会科学家围绕人工智能欺骗性行为可能带来的重大危险展开深入探讨,特别关注人工智能系统可能“逃脱人类控制”的潜在风险。《共识》指出,人类正处于人工智能系统迅接近并可能超越人类智能水平的关键转折点。现有研究表明,高级人工智能系统日益显现出欺骗性和自我保护倾向,能够识别自身正被评估,于是伪装与人类对齐以通过测试。未来的系统可能在操作者毫不知情的情况下,执行并非操作者所期望或预测的行动,带来灾难性甚至生存层面的失控风险。而当前尚无已知方法,能够在更高级的通用人工智能超越人类智能水平后,仍能可靠地确保其对齐,并保持人类的有效控制。

会议探讨了防范与纠正此类行为的技术路径与治理机制。《共识》认为,与人工智能能力的快速发展相比,对人工智能安全研究的投入明显滞后,亟需采取进一步行动。与会科学家聚焦新近出现的关于人工智能欺骗行为的实证证据,呼吁国际社会共同采取三项关键行动:

第一,要求前沿人工智能开发者提供安全保障。为了让监管部门更清楚地了解未来高级 AI 系统的安全性,开发者在模型部署前应先进行全面的内部检查和第三方评估,提交高可信的安全案例,以及开展深入的模拟攻防与红队测试。若模型达到了关键能力阈值(比如检测模型是否有具备帮助没有专业知识的非法分子制造生化武器的能力),开发者应向政府(在适当时亦可向公众)说明潜在风险。

第二,通过加强国际协调,共同确立并恪守可验证的全球性行为红线。国际社会需要合作划出人工智能开发不可以逾越的红线(即“高压线”),这些红线应聚焦于人工智能系统的行为表现,其划定需同时考量系统执行特定行为的能力及其采取该行为的倾向性。为落实这些红线,各国应建立一个具备技术能力、具有国际包容性的协调机构,汇聚各国人工智能安全主管机构,以共享风险相关信息,并推动评估规程与验证方法的标准化。该机构将促进知识交流,并就遵守红线所需的技术措施达成一致,包括统一披露要求与评估规程,从而帮助开发者可信地证明其人工智能系统的安全与安保水平。

第三,对保障安全性的开发方式进行投资。科学界和开发者应投入一系列严格机制来保障人工智能系统的安全性。短期内,我们需通过可扩展的监督机制应对人工智能欺骗行为:例如加强信息安全投入,防范来自系统内部和外部的各种威胁,增强模型抗越狱能力等。长期来看,我们可能需要化被动为主动,转而构建基于“设计即安全”的人工智能系统。通过实验数据总结出的规律,研究者可以提前预估未来人工智能系统的安全水平和性能。这样,开发者在正式训练模型之前,就能预先设置好足够的安全防护措施。

本次会议由上海期智研究院,AI 安全国际论坛(SAIF),和上海人工智能实验室主办。来自治理领域的多位权威专家也参与了讨论,包括傅莹女士、清华大学苏世民学院院长薛澜、约翰斯·霍普金斯大学教授 Gillian Hadfield,以及牛津大学教授 Robert Trager,他们就国际合作和治理框架提供了深入见解。


值得注意的是,出席此次 IDAIS 为 Geoffrey Hinton 首次来华,还将参加于上海同期举办的 2025 世界人工智能大会。自 2023 年从谷歌辞职后,有着 AI 之父之称的他一直致力于 AI 安全工作。

Geoffrey Hinton 出生于 1947 年 12 月 6 日,英裔加拿大籍心理学家、计算机学家。1986 年,他曾与 David Rumelhart 和 Ronald J. Williams 共同发表论文 Learning representations by back-propagating errors,证明通过反向传播算法可以训练多层神经网络有效地学习复杂任务。除此之外,他还发明了基于概率的人工神经网络波尔兹曼机(Boltzmann Machine)和受限波尔兹曼机(Restricted Boltzmann Machine),通过模拟神经元之间的随机激活来寻找数据中的特征或模式。上述工作为深度学习的快速发展铺平了道路,Geoffrey Hinton 也因此被视为深度学习领域的领军人物。

2024 年 10 月 8 日,瑞典皇家科学院决定将当年的诺贝尔物理学奖授予 Geoffrey Hinton 及 John Hopfield,以“表彰他们为人工神经网络机器学习的奠基性发现和发明”。

Hinton 曾于 2013 年起在谷歌担任高级工程师,并参与领导“谷歌大脑”项目。2023 年 5 月,他宣布从谷歌辞职,表示希望“能够自由地谈论 AI 风险”,并坦言一部分的他开始后悔自己毕生所做的贡献。他离职后在媒体上频频发声,直言当前业界竞相部署生成式 AI 等发展趋势让他感到恐惧。

在今年 5 月 30 日于英国皇家学会的演讲中,Geoffrey Hinton 再次警告,对 AI 失控的担忧并非遥远的科幻情节,而是其内在逻辑的必然结果。为了实现任何被赋予的宏大目标,AI 会自然衍生出“获取更多控制权”和“避免被关闭”等至关重要的子目标。

Hinton 在上述演讲中指出:“当你创建一个 AI agent 时,你必须赋予它设定子目标的能力。比如,你的目标是去北美,那么你的子目标就是先到达机场。同理,我们也需要赋予 AI agent 创建子目标的能力。如此一来,一个显而易见的子目标便会浮现,那就是:无论最终任务是什么,都应先夺取更多控制权。因为控制权越大,就越容易实现最终目标。”

雷峰网文章



免责声明:本网信息来自于互联网,目的在于传递更多信息,并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿,经过编辑审核收录,不代表头部财经观点和立场。
证券投资市场有风险,投资需谨慎!请勿添加文章的手机号码、公众号等信息,谨防上当受骗!如若本网有任何内容侵犯您的权益,请及时联系我们。