OpenAI研究人员宣称已破解模型“幻觉”：重新设计评估指标即可_科技头条_资讯

OpenAI研究人员宣称已破解模型“幻觉”：重新设计评估指标即可

资讯 » 科技头条 2025-09-06

IT之家 9 月 6 日消息，据《商业内幕》今日报道，OpenAI 研究人员宣称已经破解大语言模型性能最大的障碍之一 —— 幻觉问题。

IT之家注：所谓幻觉，是指大语言模型把不准确的信息当作事实输出，几乎所有主流模型都深受其困扰。

OpenAI 在周四发布的一篇论文中指出，幻觉的根源在于训练方式更偏向奖励“猜测”，而不是承认不确定性。换句话说，模型被训练成“装作知道”，而不是坦率地说“我不确定”。

不过，不同模型的表现差别明显。OpenAI 在上个月的博文中提到，Claude 在面对不确定时往往更谨慎，常常避免给出错误回答。但 OpenAI 也提醒，Claude 拒答率偏高，可能削弱了使用价值。

研究人员在论文中写道：“幻觉之所以难以消除，是因为现有的评估标准奖励猜测。模型被优化成‘考试型选手’，在不确定时猜一猜反而能提高分数。”

结果是，大语言模型几乎一直处于“考试模式”，把世界看成非黑即白的是非题。但现实远比考试复杂，不确定性往往多于确定性，绝对的准确并不常见。

研究人员指出：“人类会在现实生活的挫折中学会表达不确定性的价值，而大语言模型的评估主要依赖考试，这些考试却惩罚了不确定的回答。”

其认为，解决方法在于重新设计评估标准。“问题的根源是评估指标没有对齐，必须调整主要的评分方式，避免在模型不确定时因拒答而被扣分。”

OpenAI 在介绍论文的博文中进一步解释说：“目前广泛使用的基于准确率的评估需要更新，打分方式应当抑制‘乱猜’行为。如果排行榜继续奖励侥幸的回答，模型就会不断被训练成靠猜测过关。”

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

周五，AI芯片巨头“冰火两重天”

2025-09-060阅读
四川“资阳造”第三枚运载火箭精确送入预定太阳同步轨道

2025-09-060阅读
余承东的王牌军再搅局

2025-09-060阅读
无需电源即可实现数据采集，无源物联网助力重庆超大城市现代化治理

2025-09-060阅读
宝马 CFO 默特尔：凭借全新纯电动车型，公司有信息在华实现回暖

2025-09-060阅读
9 月 7 日至 8 日将迎来“血月”月全食，地球把月亮染红 82 分钟

2025-09-060阅读
轮胎制造商普利司通遭黑客攻击，美国/加拿大多家工厂运转受影响

2025-09-060阅读
重大突破，新型超导材料问世！机构盯上5只高增长潜力股

2025-09-060阅读
明晚，记得抬头看！月亮的脸又要红了

2025-09-060阅读
震撼实锤！清华姚班校友揭「1.4×加速」陷阱：AI优化器为何名不符实？

2025-09-060阅读