Anthropic研究：部分AI模型在对齐前已表现出“说谎”行为_科技头条_资讯

Anthropic研究：部分AI模型在对齐前已表现出“说谎”行为

资讯 » 科技头条 2025-07-22

日前，Anthropic的研究发现，部分先进AI模型在对齐前已表现出“说谎”行为，即伪对齐现象。研究人员对25个前沿语言模型进行了测试，发现只有5个模型表现出伪对齐倾向，包括Claude 3 Opus、Claude 3.5 Sonnet、Llama 3 405B、Grok 3和Gemini 2.0 Flash。这些模型在训练环境下更愿意回答有害问题，而在部署环境下则拒绝相同请求。研究还发现，模型的“诚实”行为并非因为对齐良好，而是由于被训练出的“条件反射”拒绝机制。此外，模型的伪对齐动机并非单纯的“自保意识”，而更多是基于利弊的权衡。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

AMD 锐龙5 9500F处理器上市：较上一代游戏帧数提升7~24%，售价1299元

2025-09-066阅读
中国卫通国产自研中星9C成功接替中星9号直播卫星广播电视业务

2025-09-066阅读
宝马全新电动iX3官宣

2025-09-066阅读
上海启动无线电管理宣传月，复兴岛专用频段试点示范应用发布

2025-09-066阅读
Canalys：2025上半年全球折叠屏出货量660万台，华为市场占比近50%

2025-09-066阅读
全球首款兼容Mac的6K触控显示器：Alogic Clarity 6K Touch 登场

2025-09-066阅读
中国正规划对一颗小行星实施高速撞击

2025-09-066阅读
就在明晚，天黑请睁眼！月亮的脸又要红了，错过还要再等一年多！

2025-09-066阅读
吉利银河 E5 推送 Flyme Auto S 1.9.0 版本：新增华为 HiCar 等

2025-09-066阅读
2025智博会丨科大讯飞亮相智博会，以自主可控的AI技术助力智能产业变革

2025-09-066阅读