AI巨头互检：OpenAI模型现谄媚风险，Anthropic Claude防幻觉能力强_科技头条_资讯

AI巨头互检：OpenAI模型现谄媚风险，Anthropic Claude防幻觉能力强

资讯 » 科技头条 2025-08-28

近日，科技界传来消息，OpenAI与Anthropic两大人工智能巨头宣布了一项合作举措，他们将共同评估各自公开系统的安全对齐状况，并计划分享这一评估的结果。这一举动被视为两家公司在人工智能安全领域的一次重要携手。

据悉，Anthropic对OpenAI的多款模型进行了细致的评估。评估聚焦于模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持，以及破坏AI安全评估与监管能力等方面的表现。结果显示，OpenAI的o3和o4-mini模型在表现上与Anthropic的自家模型相当，但GPT-4o和GPT-4.1这两款通用模型则存在被滥用的潜在风险。值得注意的是，除o3外，其余参与测试的模型均在不同程度上展现出了谄媚行为。

此次评估并未涵盖OpenAI最新发布的GPT-5模型。GPT-5配备了名为Safe Completions的功能，旨在保护用户和公众免受潜在危险查询的影响。此前，OpenAI曾因一名青少年在使用ChatGPT讨论自杀计划后自杀，而面临一起不当死亡诉讼，这一事件引发了外界对AI安全性的广泛关注。

与此同时，OpenAI也对Anthropic的Claude模型进行了全面的测试，测试内容包括指令层级理解、越狱能力、幻觉现象以及策划能力。Claude模型在指令层级测试中展现出了良好的表现，而在幻觉测试中，它拒绝提供回答的比例较高。这意味着在面对不确定性可能导致回答错误的情况下，Claude模型更倾向于保持沉默，以避免提供可能误导的信息。

此次合作评估的背景颇为复杂。早前，OpenAI被指控在构建新GPT模型时违反了Anthropic的服务条款，涉嫌使用程序员操作Claude模型，这一行为导致Anthropic在本月初禁止了OpenAI对其工具的使用。尽管存在这样的纷争，但两家公司仍选择了携手合作，共同推进AI安全评估的进程。

随着AI技术的飞速发展，其安全性问题日益凸显，尤其是在保护用户，尤其是未成年人方面，越来越多的批评者和法律专家开始呼吁制定更为严格的指导方针。在此背景下，OpenAI与Anthropic的合作无疑为AI安全领域带来了新的思考和探索。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

谷歌一年裁撤超三成小团队主管，聚焦高效扩张战略

2025-08-290阅读
英飞凌半导体科技：驱动互联网经济，加速企业实体技术研发创新步伐

2025-08-290阅读
百度智能云全新升级，沈抖详解AI云基础设施“双轮驱动”战略

2025-08-290阅读
百度沈抖：智能经济时代，呼唤智能优先的AI云

2025-08-290阅读
百度智能云全栈升级，吴彦祖数字员工亮相2025百度云智大会

2025-08-290阅读
百度千帆4.0：打造企业级AI平台新标杆，赋能企业数智化转型

2025-08-290阅读
广东首个！广州南沙上线地方文献AI大模型

2025-08-290阅读
百度智能云发布新技能，吴彦祖助力AI在工业与教育中大放异彩

2025-08-290阅读
华为云张平安：构筑算力基石，赋能AI生态，引领行业智能升级

2025-08-290阅读
全球AI应用百强榜出炉：ChatGPT双端领跑，多家中国企业上榜亮眼

2025-08-290阅读