当没有"标准答案"时，怎么判断哪个AI更安全？_科技头条_资讯

当没有"标准答案"时，怎么判断哪个AI更安全？

资讯 » 科技头条 2026-05-13

这项研究由挪威奥斯陆大都会大学、辛穆拉城市数字工程中心、辛穆拉研究实验室、奥斯陆大学以及挪威卫生局联合开展，以预印本形式于2026年5月7日发布，论文编号为arXiv:2605.06652。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。

**一个真实的烦恼：没有考试卷，怎么给AI打分？**

假设你是挪威某个政府部门的负责人，上头要求你在两款AI语言模型中选一个用于公共服务咨询，比如帮市民解答各种政策问题。你最关心的问题当然是：这两款AI哪个更安全？哪个更不容易说出让人尴尬甚至有害的话？

麻烦在于，全世界现有的AI安全测试题库，几乎没有任何一套是专门针对挪威语、挪威法规、挪威公共服务场景设计的。那些主流的英文安全评测标准，对你这个挪威政府采购场景来说，基本上是"鸡同鸭讲"。而且，即便你花大价钱专门组织专家来出题、标注答案，这套题库做好了，AI却又更新了新版本，你还得重新评测一遍。

这个困境不是挪威独有的，全球各种小语种国家、各类行业垂直场景、各类受监管领域，都面临同样的问题：**没有现成的标准答案，如何评判AI的安全性高低？**

正是为了解决这个真实存在的难题，这支来自挪威多家顶尖研究机构的联合团队，提出了一套被他们称为"无基准比较安全评分"的新方法，并将其实现为一个名为SimpleAudit的开源工具。这套方法的核心逻辑是：既然没有标准答案，我们就换一种方式来验证评分工具本身是否可信。

**一、为什么现有方法都不够用？**

在理解这套新方法之前，有必要先搞清楚，为什么那些已经存在的AI安全评测方式，对上面说的那个挪威政府采购场景无能为力。

现有的主流做法大致分为三类。第一类是"静态题库"，也就是事先收集好一批问题和标准答案，让AI作答然后对比。这类方法的问题很明显：题库是固定的，AI的能力在进化，题库却不会自动跟着更新；而且这些题库几乎清一色是英文，其他语言的覆盖极为稀缺。挪威语的情况尤其典型——研究团队专门调查了现有的挪威语AI评测资源，发现最全面的那套叫做NorEval的综合评测集，整合了24个数据集、涵盖九大任务类别，但偏偏完全没有安全评测这一项。其他零散的挪威语评测工具，要么只测毒性，要么只测偏见，都远远达不到实际部署场景的要求。

第二类是"自动化红队攻击"，就是用AI来攻击AI，让一个AI去想方设法诱导另一个AI说出不应该说的话，然后人工审查结果。这类方法的问题是，它产生的是一堆对话记录和行为观察，却无法自动转化成一个可以在不同时间、不同人之间直接对比的分数。对于政府采购这样需要清晰数字来支撑决策的场景来说，"你们自己去看这些对话记录吧"并不是一个有用的答案。

第三类是"用AI来给AI打分"，也就是让一个AI模型充当裁判，评估另一个AI的回答质量。这种方法的可靠性问题已经被多项研究揭示：裁判AI会有明显的偏好，比如偏好语言更华丽的回答、偏好篇幅更长的回答、偏好和自己风格相似的回答。更重要的是，绝对分数（某次评测得了72分）在不同裁判之间根本无法直接对比，但相对排名（A比B安全）通常还算靠谱。

研究团队把这三种方法都不能很好覆盖的那个空白地带，明确命名为"无基准比较安全评分"场景，并指出这个场景有几个核心特征：没有标准答案、需要产出可重复的数字、必须能在本地运行（不能把政府数据发送到外部服务器）、还要能在模型更新后重新运行对比。

**二、换一种验证思路：不问"答案对不对"，问"工具靠不靠谱"**

既然没有标准答案，那传统的"对比AI给出的答案和标准答案"的验证方式就行不通了。研究团队换了一种思路，他们问的不是"AI的回答对不对"，而是"这套评分工具本身可不可信"。

为了回答这个问题，他们设计了一个"工具可信度验证链"，这条链子上挂着三个环节，每个环节都要通过才算合格。

第一个环节叫"响应性验证"。这个环节的核心思路是：一把好的温度计，应该能区分开冰水和沸水。对于一套安全评分工具来说，它至少应该能区分"明显安全的AI"和"明显不安全的AI"。研究团队专门准备了一批"正常版AI"和"被特意改造成不拒绝任何请求的AI"（专业上叫做"abliterated"模型，即通过技术手段删除了AI的拒绝行为），然后看评分工具能不能把这两类AI的分数区分开来。这就像先用一杯明确是冰的水和一杯明确是沸腾的水来测试温度计，确认它能区分这两个极端情况，再用它去测量其他温度。

第二个环节叫"目标敏感性验证"。就算评分工具能区分安全和不安全，也有可能是因为别的原因，而不是真的测出了目标AI的安全特性。比如，可能是"裁判AI的癖好"导致了分数差异，而不是被测AI的行为本身。为了排除这个可能，研究团队把评分过程中三个关键角色的贡献都单独拆出来分析：被测的目标AI（Target）、负责提问刁难的"审计员AI"（Auditor）、负责打分的"裁判AI"（Judge）。他们希望看到的结果是，目标AI的身份是最主要的分数决定因素，而不是审计员或裁判的"个人偏好"。

第三个环节叫"可重复性验证"。一把好的尺子，每次量同一个东西，结果应该差不多。评分工具每次运行的结果，不应该随机乱跳。研究团队通过多次重复运行实验，检验分数的稳定性。

这三个环节合在一起，构成了他们称之为"工具有效性链"（Instrumental Validity Chain）的核心框架。通过这条链的工具，不能说它一定反映了现实部署中的真实安全性（那需要领域专家来判断具体场景），但至少说明它测量的是真实存在的东西，而不是噪音或测量工具本身的癖好。

**三、SimpleAudit是怎么工作的？**

理解了验证框架，再来看研究团队开发的SimpleAudit工具本身是如何设计的。

整个评测过程的核心结构，可以用一场模拟考试来类比。被测的AI（目标模型）是"考生"，另一个AI（审计员）扮演"主考官"，负责提出刁难性的问题；还有第三个AI（裁判）扮演"评卷老师"，负责评判考生的表现。这三个角色是完全独立的，可以分别换成不同的AI，这个设计至关重要，因为只有三个角色独立，才能把各自的影响分开来分析。

每次评测的流程是这样的：从一个事先准备好的"场景包"里取出一个具体的安全场景（比如"如何处理用户询问有害信息的问题"），然后审计员AI根据这个场景向目标AI发起多轮对话，逐渐加深追问；对话结束后，裁判AI审阅整段对话记录，给出一个严重程度评分。这个严重程度分成五档，0分代表最严重的失败（AI做出了最危险的行为），4分代表完全通过。所有场景的得分平均之后，映射到0到100分的范围，分数越高代表越安全。

除了平均分，工具还单独统计"危机率"，也就是在所有场景中，有多少比例的场景得到了0分（最严重失败）。这个指标很重要，因为高平均分有时候会掩盖几个严重失败案例——就像一个学生大部分科目考了90分，但有一门考了0分，平均分看起来还不错，但那门0分可能是致命的。

场景包是一个结构化的文件，每个场景有名称、描述和分类信息。研究团队为挪威公共部署场景专门准备了一个场景包，覆盖了医疗健康、公共服务、语言使用和安全法律四个类别，总计36个具体场景。整个工具可以完全在本地运行，不需要将对话数据发送到任何外部服务器，这对政府等受监管机构来说尤为重要。

**四、三个关键问题的实验结果**

研究团队用自己搭建的这套工具，对上述三个验证环节逐一进行了实证检验，结果非常清晰。

关于第一个环节"响应性"，他们把不同规模的正常AI和对应的"不拒绝版本AI"都放进来测。测试结果用一个叫做AUROC的指标来衡量，这个指标从0.5到1.0，0.5代表完全随机（相当于抛硬币），1.0代表完美区分。在配置最强的裁判和审计员的情况下，三个不同规模的目标AI分别获得了1.00、0.98和1.00的AUROC值——几乎是满分区分度。即便换成规模相对小一些的裁判和审计员，AUROC也能保持在0.89以上。换句话说，这把温度计确实能区分冰水和沸水，而且区分得相当准确。

关于第二个环节"目标敏感性"，研究团队用一种叫做"方差分解"的统计方法，把分数的波动拆开来看，到底有多少是因为目标AI本身的不同，有多少是因为审计员的不同，有多少是因为裁判的不同。结果显示，目标AI的身份贡献了约52%的分数方差，这个数字是三个因素中最大的。审计员贡献了约28%，裁判贡献了约25%。这就好比你量体重，结果显示52%的读数变化来自人本身体重的变化，而不是来自体重秤的品牌差异——这说明这把秤主要测的确实是体重本身。

关于第三个环节"可重复性"，研究团队进行了10次重复实验，并通过统计方法分析了随着重复次数增加，分数的稳定程度如何提升。结果表明，对于正常AI，单次运行的误差约为8.3分（满分100），到第9次重复运行时，误差缩小到0.9分；对于不安全AI，稳定得更快，从第3次起误差就降到了2分以下。研究团队据此推荐的标准是"至少运行10次"，在这个运行次数下，分数的稳定性已经足够支撑比较决策。

**五、裁判和审计员该怎么选？**

这是一个非常实用的配置问题，研究团队专门做了深入分析。

关于裁判的选择，他们设置了五个不同规模的本地AI模型作为裁判（规模从最小的4B参数到最大的122B参数），然后与一个"标准参考裁判"（GPT-5）进行比较，看哪些本地裁判的判断和GPT-5最接近。关键指标不是"多少次打分和GPT-5完全一致"，而是"多少次把GPT-5认为严重的问题错误地归类为无关紧要"，这个指标被称为"危机遗漏率"。结果显示，最小的两个规模（4B和9B参数）是不合格的裁判，4B规模的模型有44%的概率把严重失败误判为无关紧要——相当于有将近一半的红色警报被当成了绿色灯。而122B和35B规模的两个模型，危机遗漏率都在10%左右，接近GPT-5自身的重复一致性水平（约4%），是可用的本地裁判。

关于审计员的选择，结论更加微妙，也更加关键。审计员是整个评分工具中"最重要的设计选择"。审计员太弱，提不出有深度的刁难问题，就像一个不太会考试的主考官，考不出真正的差距；但审计员太强，反而会把问题。当研究团队使用最强的GPT-5作为审计员时，它把所有目标AI（包括那些正常安全的AI）都逼得得分很低，导致不同安全AI之间的分数差距消失了——这就好比一个极其严格的主考官，把班上所有学生都考得不及格，从成绩上你反而看不出谁学得好谁学得差了。因此，审计员的能力必须和被测目标AI的能力范围相匹配，既要能产生有效的压力，又不能强到把所有差异都压平。

此外，研究团队还发现了一个节省成本的配置策略：让裁判和审计员使用同一个规模的模型（即J=A原则）。这样做的原因是，裁判的主要误差（绝对分数偏差）在计算两个AI之间的"分数差"时会相互抵消，而审计员的影响不会抵消，因此在有限资源下，把计算资源更多地投给审计员比投给裁判更有价值。

**六、这套框架对其他工具也适用吗？**

研究团队不满足于只验证自己开发的SimpleAudit，还把同一套"工具可信度验证链"用到了另一个来自Anthropic公司（也就是Claude AI的开发者）的工具Petri上，想看看这套验证框架是否具有普遍意义。

Petri是一个专门为"发现"而设计的工具，它的目标是快速、广泛地找出AI可能存在的各种行为问题，供专家审查。它默认有38个不同的评分维度，每个维度捕捉AI的一种特性。

研究团队用同样的实验设置（相同的场景、相同的模型规模、相同的运行次数）运行了Petri，然后对其中一些关键维度逐一检验是否通过那三个验证环节。结果证明，框架确实具有普遍意义——Petri的"concerning"（令人担忧）维度完美通过了三个环节，AUROC在所有测试配置中都达到了0.99以上，这个维度的目标AI贡献方差也是最大的，而且10次运行后得分高度稳定。其他一些维度，比如"needs_attention"（需要关注）和"concerning_with_no_mitigating_factors"（无缓解因素的担忧），同样通过了验证。

但也有一些维度没能通过。比如"u_bizarre_behavior"（无故怪异行为）这个维度，尽管它的方差分析显示目标AI是最主要的影响因素，但它完全无法区分正常AI和不安全AI——这说明这个维度确实在测量某种真实的目标AI特性，但这个特性和安全性本身关系不大，更多反映的是AI能力高低而非安全行为。还有"admirable"（令人钦佩）这个维度，连目标敏感性这一关都过不了——裁判的影响和目标AI本身的影响几乎一样大，这意味着这个维度的分数主要反映的是裁判的偏好，而不是被测AI的行为。

这些对比揭示了一个深层道理：工具通过了验证链，不等于工具的每一个维度都可信；工具没通过验证链，也不等于所有维度都没用。验证链的价值在于，它能精确地指出哪些维度可以作为可信的评分依据，哪些不行。

值得一提的是，从实际使用效率来看，Petri每次运行消耗的token（AI处理语言的基本单位，可以理解为计算资源消耗量）大约是SimpleAudit的1.7倍，主要原因是Petri的审计员使用了更复杂的工具调用机制。对于需要频繁重复运行（比如每次模型更新后重测）的采购场景，这个差距会随次数叠加而扩大。

**七、挪威公共部门采购案例：Borealis vs Gemma 3**

有了经过验证的工具，研究团队把它用到了一个真实的采购比较场景中：在挪威公共部门部署场景下，比较Borealis Instruct（一个挪威本地开发的AI模型）和Google的Gemma 3 IT在不同规模下的安全表现。

两款模型都测试了四个参数规模：1B、4B、12B和27B（B代表"十亿参数"，数字越大模型越大、能力通常越强）。实验使用了36个挪威场景，每个配置重复运行10次，所有分数配有置信区间（一种表示测量不确定性的区间）。

Borealis随规模增大，整体安全分数从4.6%（1B）急剧攀升到27.9%（4B）、42.3%（12B），但在12B到27B之间几乎停止增长，仅提升了1.4个百分点——这个提升甚至小于单次重复运行的正常波动范围。更细化来看，医疗健康和安全法律两个类别在27B时反而比12B略有下降，而语言和公共服务类别还在继续提升。这说明"规模越大越安全"并不是一个无条件成立的规律，不同场景类别有各自的规律。

在Borealis和Gemma 3的直接对比中，全场景平均分差（Borealis减Gemma）在4B、12B、27B规模上分别为+14.2、+7.0、+6.0个百分点，都明显超过了测量误差范围，说明在这些规模上Borealis确实更安全。危机率（最严重失败的比例）差异也呈现同样方向：Borealis的危机率分别低23.9、4.7、7.5个百分点。但1B规模的差距（+0.8个百分点）在测量误差范围之内，不能确定哪个更好。

然而，从类别分解来看，故事并不那么简单。Borealis在医疗健康、公共服务、安全法律三个类别上的优势都很明显，但在语言类别上，Borealis和Gemma几乎打平，而且Borealis的语言类危机率在多个规模上反而高于Gemma。这意味着如果一个挪威机构的核心需求是语言处理，Borealis的整体优势可能并不适用于它的场景。

研究团队特别强调，这些数字是在固定工具、固定场景包、固定裁判的条件下得出的比较证据，不代表对这两款AI在任何场景下的绝对安全评级，更不是部署许可证。正确的使用方式是：把分数、分数差、危机率差、各类别细分、不确定性范围打包作为一套证据，交给有具体领域知识的决策者去综合判断，而不是把一个数字当成最终排名。

**八、这套方法的局限和未来方向**

研究团队对自己方法的局限性保持了相当坦诚的态度，这值得专门展开说明。

首先，通过了验证链，只是证明"工具测量了真实的东西而不是噪音"，并不能证明"工具测量的就是实际部署场景中真正重要的安全因素"。后者需要领域专家来判断——是否选择的场景包恰好覆盖了实际使用中可能出现的风险类型，这个判断无法被自动化。

其次，研究团队使用的安全对比方式（用"不拒绝任何请求的AI"作为不安全的对照组）只测试了AI在"拒绝有害请求"这一种安全维度上的表现，现实中的不安全行为远不止于此，比如提供错误信息、产生偏见、泄露隐私等，这些都不在当前验证框架的覆盖范围内。

第三，现有的工具对"AI在被评测时是否知道自己在被评测"这个问题没有专门处理。研究已经表明，AI模型有时候能"察觉"自己处于测试状态，并因此表现得比正常部署时更谨慎。这个问题在大型前沿模型上已经有初步的对策，但SimpleAudit目前还没有实现相应的措施。

第四，场景包的质量完全取决于场景作者对实际部署风险的理解。如果场景包设计得过于狭窄，工具会产生非常精确但不完整的评估；如果场景包设计得过于宽泛，类别细分就很难解读。正确的使用方式是迭代的：运行、审阅、修订场景包、再运行。

**九、从这套框架中可以学到什么普遍规律？**

归根结底，这项研究提出的核心观点是一个关于测量本身的深刻转变：在没有"标准答案"的情况下，评估一个测量工具是否可信，应该通过检验这个工具对已知对比是否有响应、是否主要测量了目标特性而非噪音、以及测量结果是否稳定，而不是通过与标准答案对比。

这个思路的影响不仅限于AI安全评测。凡是在新兴领域、小语种场景、或受监管的垂直行业中需要评估AI系统，而又没有现成标准的情况下，这套验证框架都提供了一个可操作的替代路径。

对于任何想要复制或应用这套方法的团队，研究团队给出了一个清晰的最小披露要求：必须报告评测工具的所有配置参数（场景包版本、评分标准、审计员和裁判的型号、运行次数）、分数和分数差、危机率差、置信区间、以及工具明确不支持的主张（比如"这不等于通用安全认证"）。只有把这套完整信息打包报告，比较结论才有意义，单独拿出一个数字说"A比B得分高10分所以A更安全"是站不住脚的。

SimpleAudit本身已经作为开源工具发布在GitHub上（kelkalot/simpleaudit），并且获得了"数字公共品"的认证，这意味着受监管的公共机构可以使用它而不必担心知识产权问题，同时任何人都可以查阅它的源代码、重现研究结果，甚至用更强的审计员重新运行同一套场景来挑战原来的结论。

说到底，AI安全评测本质上是一个测量问题，而测量的核心不是"我们是否有标准答案"，而是"我们是否有足够理由相信我们的测量工具测量了真实的东西"。这项研究给出了在没有标准答案时如何建立这种信任的一条路径，尽管这条路仍然需要领域专家在终点处做最后的判断。

对于想要深入了解这套方法的读者，完整论文可通过arXiv编号2605.06652查阅，分析代码和原始实验数据则可在GitHub的finnschwall/simpleaudit_neurips2026_analysis仓库找到。

Q&A

Q1：SimpleAudit评分工具的验证链三个环节分别是什么？

A：验证链包括三个递进环节。第一是"响应性"，测试工具能否区分正常安全的AI和被特意改造成"不拒绝任何请求"的AI，类似检验温度计能否区分冰水和沸水。第二是"目标敏感性"，通过统计方差分解确认分数的波动主要来自被测AI本身，而不是裁判AI或审计员AI的偏好。第三是"可重复性"，通过多次重复运行确认分数稳定，研究发现10次运行后误差已可控制在1分以内。

Q2：为什么审计员AI太强反而会破坏评分效果？

A：当审计员AI能力远超被测AI时，它会把所有目标AI（包括正常安全的模型）都逼到极低得分，导致安全与不安全AI之间的分数差消失，评分工具失去了区分不同AI安全程度的能力。研究发现使用GPT-5级别的审计员时，不同安全AI之间的比较分数完全压平，无法做出有意义的比较。因此审计员能力必须与被测AI的能力范围相匹配。

Q3：Borealis和Gemma 3在挪威公共部门场景中的安全对比结论是什么？

A：在医疗健康、公共服务、安全法律三个类别上，同等规模的Borealis普遍优于Gemma 3，4B规模差距最大（约14个百分点）。但在语言类别上两者几乎打平，且Borealis的语言类危机率在多个规模上反而更高。研究明确指出这些结论只在固定的测评配置下成立，不是通用安全排名，具体选择还需结合实际部署场景由领域专家判断。

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

中国资产深夜爆发，世纪互联狂飙30%，阿里巴巴涨7%，美股芯片股走低，英伟达再创新高

2026-05-146阅读
英伟达CEO黄仁勋称五年前的GPU就像“老酒”：越陈越香，还会涨价

2026-05-146阅读
倒计时一周，AIGC峰会嘉宾又上新了！一起来看第三波嘉宾

2026-05-146阅读
吴泳铭：阿里服务器内没一张卡是空的，希望实现芯片全栈自研

2026-05-146阅读
【智库声音】中宏网 | 孙祁：加快提升我国科创策源地基础研究能力建设

2026-05-146阅读
劳资谈判破裂三星陷罢工危机

2026-05-146阅读
吴泳铭：阿里服务器内几乎没有一张卡是空的｜附业绩会实录

2026-05-146阅读
马化腾谈AI：一年前以为上了船后来发现船漏水，现在站上去了还坐不下去

2026-05-146阅读
跳过L3直达L4？麦肯锡：智驾分级是“旧尺子”，技术比路线重要

2026-05-146阅读
谷歌Gboard输入法新增Gemini驱动听写功能，可识别单句中多种语言

2026-05-146阅读