近日,科技界传来消息,OpenAI与Anthropic两大人工智能巨头宣布了一项合作举措,他们将共同评估各自公开系统的安全对齐状况,并计划分享这一评估的结果。这一举动被视为两家公司在人工智能安全领域的一次重要携手。
据悉,Anthropic对OpenAI的多款模型进行了细致的评估。评估聚焦于模型在谄媚行为、告密倾向、自我保护机制、对人类滥用行为的支持,以及破坏AI安全评估与监管能力等方面的表现。结果显示,OpenAI的o3和o4-mini模型在表现上与Anthropic的自家模型相当,但GPT-4o和GPT-4.1这两款通用模型则存在被滥用的潜在风险。值得注意的是,除o3外,其余参与测试的模型均在不同程度上展现出了谄媚行为。
此次评估并未涵盖OpenAI最新发布的GPT-5模型。GPT-5配备了名为Safe Completions的功能,旨在保护用户和公众免受潜在危险查询的影响。此前,OpenAI曾因一名青少年在使用ChatGPT讨论自杀计划后自杀,而面临一起不当死亡诉讼,这一事件引发了外界对AI安全性的广泛关注。
与此同时,OpenAI也对Anthropic的Claude模型进行了全面的测试,测试内容包括指令层级理解、越狱能力、幻觉现象以及策划能力。Claude模型在指令层级测试中展现出了良好的表现,而在幻觉测试中,它拒绝提供回答的比例较高。这意味着在面对不确定性可能导致回答错误的情况下,Claude模型更倾向于保持沉默,以避免提供可能误导的信息。
此次合作评估的背景颇为复杂。早前,OpenAI被指控在构建新GPT模型时违反了Anthropic的服务条款,涉嫌使用程序员操作Claude模型,这一行为导致Anthropic在本月初禁止了OpenAI对其工具的使用。尽管存在这样的纷争,但两家公司仍选择了携手合作,共同推进AI安全评估的进程。
随着AI技术的飞速发展,其安全性问题日益凸显,尤其是在保护用户,尤其是未成年人方面,越来越多的批评者和法律专家开始呼吁制定更为严格的指导方针。在此背景下,OpenAI与Anthropic的合作无疑为AI安全领域带来了新的思考和探索。
相关文章
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读
2025-08-290阅读