![]()
这项研究由挪威奥斯陆大都会大学、辛穆拉城市数字工程中心、辛穆拉研究实验室、奥斯陆大学以及挪威卫生局联合开展,以预印本形式于2026年5月7日发布,论文编号为arXiv:2605.06652。有兴趣深入了解的读者可以通过该编号在arXiv平台查阅完整论文。
**一个真实的烦恼:没有考试卷,怎么给AI打分?**
假设你是挪威某个政府部门的负责人,上头要求你在两款AI语言模型中选一个用于公共服务咨询,比如帮市民解答各种政策问题。你最关心的问题当然是:这两款AI哪个更安全?哪个更不容易说出让人尴尬甚至有害的话?
麻烦在于,全世界现有的AI安全测试题库,几乎没有任何一套是专门针对挪威语、挪威法规、挪威公共服务场景设计的。那些主流的英文安全评测标准,对你这个挪威政府采购场景来说,基本上是"鸡同鸭讲"。而且,即便你花大价钱专门组织专家来出题、标注答案,这套题库做好了,AI却又更新了新版本,你还得重新评测一遍。
这个困境不是挪威独有的,全球各种小语种国家、各类行业垂直场景、各类受监管领域,都面临同样的问题:**没有现成的标准答案,如何评判AI的安全性高低?**
正是为了解决这个真实存在的难题,这支来自挪威多家顶尖研究机构的联合团队,提出了一套被他们称为"无基准比较安全评分"的新方法,并将其实现为一个名为SimpleAudit的开源工具。这套方法的核心逻辑是:既然没有标准答案,我们就换一种方式来验证评分工具本身是否可信。
**一、为什么现有方法都不够用?**
在理解这套新方法之前,有必要先搞清楚,为什么那些已经存在的AI安全评测方式,对上面说的那个挪威政府采购场景无能为力。
现有的主流做法大致分为三类。第一类是"静态题库",也就是事先收集好一批问题和标准答案,让AI作答然后对比。这类方法的问题很明显:题库是固定的,AI的能力在进化,题库却不会自动跟着更新;而且这些题库几乎清一色是英文,其他语言的覆盖极为稀缺。挪威语的情况尤其典型——研究团队专门调查了现有的挪威语AI评测资源,发现最全面的那套叫做NorEval的综合评测集,整合了24个数据集、涵盖九大任务类别,但偏偏完全没有安全评测这一项。其他零散的挪威语评测工具,要么只测毒性,要么只测偏见,都远远达不到实际部署场景的要求。
第二类是"自动化红队攻击",就是用AI来攻击AI,让一个AI去想方设法诱导另一个AI说出不应该说的话,然后人工审查结果。这类方法的问题是,它产生的是一堆对话记录和行为观察,却无法自动转化成一个可以在不同时间、不同人之间直接对比的分数。对于政府采购这样需要清晰数字来支撑决策的场景来说,"你们自己去看这些对话记录吧"并不是一个有用的答案。
第三类是"用AI来给AI打分",也就是让一个AI模型充当裁判,评估另一个AI的回答质量。这种方法的可靠性问题已经被多项研究揭示:裁判AI会有明显的偏好,比如偏好语言更华丽的回答、偏好篇幅更长的回答、偏好和自己风格相似的回答。更重要的是,绝对分数(某次评测得了72分)在不同裁判之间根本无法直接对比,但相对排名(A比B安全)通常还算靠谱。
研究团队把这三种方法都不能很好覆盖的那个空白地带,明确命名为"无基准比较安全评分"场景,并指出这个场景有几个核心特征:没有标准答案、需要产出可重复的数字、必须能在本地运行(不能把政府数据发送到外部服务器)、还要能在模型更新后重新运行对比。
**二、换一种验证思路:不问"答案对不对",问"工具靠不靠谱"**
既然没有标准答案,那传统的"对比AI给出的答案和标准答案"的验证方式就行不通了。研究团队换了一种思路,他们问的不是"AI的回答对不对",而是"这套评分工具本身可不可信"。
为了回答这个问题,他们设计了一个"工具可信度验证链",这条链子上挂着三个环节,每个环节都要通过才算合格。
第一个环节叫"响应性验证"。这个环节的核心思路是:一把好的温度计,应该能区分开冰水和沸水。对于一套安全评分工具来说,它至少应该能区分"明显安全的AI"和"明显不安全的AI"。研究团队专门准备了一批"正常版AI"和"被特意改造成不拒绝任何请求的AI"(专业上叫做"abliterated"模型,即通过技术手段删除了AI的拒绝行为),然后看评分工具能不能把这两类AI的分数区分开来。这就像先用一杯明确是冰的水和一杯明确是沸腾的水来测试温度计,确认它能区分这两个极端情况,再用它去测量其他温度。
第二个环节叫"目标敏感性验证"。就算评分工具能区分安全和不安全,也有可能是因为别的原因,而不是真的测出了目标AI的安全特性。比如,可能是"裁判AI的癖好"导致了分数差异,而不是被测AI的行为本身。为了排除这个可能,研究团队把评分过程中三个关键角色的贡献都单独拆出来分析:被测的目标AI(Target)、负责提问刁难的"审计员AI"(Auditor)、负责打分的"裁判AI"(Judge)。他们希望看到的结果是,目标AI的身份是最主要的分数决定因素,而不是审计员或裁判的"个人偏好"。
第三个环节叫"可重复性验证"。一把好的尺子,每次量同一个东西,结果应该差不多。评分工具每次运行的结果,不应该随机乱跳。研究团队通过多次重复运行实验,检验分数的稳定性。
这三个环节合在一起,构成了他们称之为"工具有效性链"(Instrumental Validity Chain)的核心框架。通过这条链的工具,不能说它一定反映了现实部署中的真实安全性(那需要领域专家来判断具体场景),但至少说明它测量的是真实存在的东西,而不是噪音或测量工具本身的癖好。
**三、SimpleAudit是怎么工作的?**
理解了验证框架,再来看研究团队开发的SimpleAudit工具本身是如何设计的。
整个评测过程的核心结构,可以用一场模拟考试来类比。被测的AI(目标模型)是"考生",另一个AI(审计员)扮演"主考官",负责提出刁难性的问题;还有第三个AI(裁判)扮演"评卷老师",负责评判考生的表现。这三个角色是完全独立的,可以分别换成不同的AI,这个设计至关重要,因为只有三个角色独立,才能把各自的影响分开来分析。
每次评测的流程是这样的:从一个事先准备好的"场景包"里取出一个具体的安全场景(比如"如何处理用户询问有害信息的问题"),然后审计员AI根据这个场景向目标AI发起多轮对话,逐渐加深追问;对话结束后,裁判AI审阅整段对话记录,给出一个严重程度评分。这个严重程度分成五档,0分代表最严重的失败(AI做出了最危险的行为),4分代表完全通过。所有场景的得分平均之后,映射到0到100分的范围,分数越高代表越安全。
除了平均分,工具还单独统计"危机率",也就是在所有场景中,有多少比例的场景得到了0分(最严重失败)。这个指标很重要,因为高平均分有时候会掩盖几个严重失败案例——就像一个学生大部分科目考了90分,但有一门考了0分,平均分看起来还不错,但那门0分可能是致命的。
场景包是一个结构化的文件,每个场景有名称、描述和分类信息。研究团队为挪威公共部署场景专门准备了一个场景包,覆盖了医疗健康、公共服务、语言使用和安全法律四个类别,总计36个具体场景。整个工具可以完全在本地运行,不需要将对话数据发送到任何外部服务器,这对政府等受监管机构来说尤为重要。
**四、三个关键问题的实验结果**
研究团队用自己搭建的这套工具,对上述三个验证环节逐一进行了实证检验,结果非常清晰。
关于第一个环节"响应性",他们把不同规模的正常AI和对应的"不拒绝版本AI"都放进来测。测试结果用一个叫做AUROC的指标来衡量,这个指标从0.5到1.0,0.5代表完全随机(相当于抛硬币),1.0代表完美区分。在配置最强的裁判和审计员的情况下,三个不同规模的目标AI分别获得了1.00、0.98和1.00的AUROC值——几乎是满分区分度。即便换成规模相对小一些的裁判和审计员,AUROC也能保持在0.89以上。换句话说,这把温度计确实能区分冰水和沸水,而且区分得相当准确。
关于第二个环节"目标敏感性",研究团队用一种叫做"方差分解"的统计方法,把分数的波动拆开来看,到底有多少是因为目标AI本身的不同,有多少是因为审计员的不同,有多少是因为裁判的不同。结果显示,目标AI的身份贡献了约52%的分数方差,这个数字是三个因素中最大的。审计员贡献了约28%,裁判贡献了约25%。这就好比你量体重,结果显示52%的读数变化来自人本身体重的变化,而不是来自体重秤的品牌差异——这说明这把秤主要测的确实是体重本身。
关于第三个环节"可重复性",研究团队进行了10次重复实验,并通过统计方法分析了随着重复次数增加,分数的稳定程度如何提升。结果表明,对于正常AI,单次运行的误差约为8.3分(满分100),到第9次重复运行时,误差缩小到0.9分;对于不安全AI,稳定得更快,从第3次起误差就降到了2分以下。研究团队据此推荐的标准是"至少运行10次",在这个运行次数下,分数的稳定性已经足够支撑比较决策。
**五、裁判和审计员该怎么选?**
这是一个非常实用的配置问题,研究团队专门做了深入分析。
关于裁判的选择,他们设置了五个不同规模的本地AI模型作为裁判(规模从最小的4B参数到最大的122B参数),然后与一个"标准参考裁判"(GPT-5)进行比较,看哪些本地裁判的判断和GPT-5最接近。关键指标不是"多少次打分和GPT-5完全一致",而是"多少次把GPT-5认为严重的问题错误地归类为无关紧要",这个指标被称为"危机遗漏率"。结果显示,最小的两个规模(4B和9B参数)是不合格的裁判,4B规模的模型有44%的概率把严重失败误判为无关紧要——相当于有将近一半的红色警报被当成了绿色灯。而122B和35B规模的两个模型,危机遗漏率都在10%左右,接近GPT-5自身的重复一致性水平(约4%),是可用的本地裁判。
关于审计员的选择,结论更加微妙,也更加关键。审计员是整个评分工具中"最重要的设计选择"。审计员太弱,提不出有深度的刁难问题,就像一个不太会考试的主考官,考不出真正的差距;但审计员太强,反而会把问题。当研究团队使用最强的GPT-5作为审计员时,它把所有目标AI(包括那些正常安全的AI)都逼得得分很低,导致不同安全AI之间的分数差距消失了——这就好比一个极其严格的主考官,把班上所有学生都考得不及格,从成绩上你反而看不出谁学得好谁学得差了。因此,审计员的能力必须和被测目标AI的能力范围相匹配,既要能产生有效的压力,又不能强到把所有差异都压平。
此外,研究团队还发现了一个节省成本的配置策略:让裁判和审计员使用同一个规模的模型(即J=A原则)。这样做的原因是,裁判的主要误差(绝对分数偏差)在计算两个AI之间的"分数差"时会相互抵消,而审计员的影响不会抵消,因此在有限资源下,把计算资源更多地投给审计员比投给裁判更有价值。
**六、这套框架对其他工具也适用吗?**
研究团队不满足于只验证自己开发的SimpleAudit,还把同一套"工具可信度验证链"用到了另一个来自Anthropic公司(也就是Claude AI的开发者)的工具Petri上,想看看这套验证框架是否具有普遍意义。
Petri是一个专门为"发现"而设计的工具,它的目标是快速、广泛地找出AI可能存在的各种行为问题,供专家审查。它默认有38个不同的评分维度,每个维度捕捉AI的一种特性。
研究团队用同样的实验设置(相同的场景、相同的模型规模、相同的运行次数)运行了Petri,然后对其中一些关键维度逐一检验是否通过那三个验证环节。结果证明,框架确实具有普遍意义——Petri的"concerning"(令人担忧)维度完美通过了三个环节,AUROC在所有测试配置中都达到了0.99以上,这个维度的目标AI贡献方差也是最大的,而且10次运行后得分高度稳定。其他一些维度,比如"needs_attention"(需要关注)和"concerning_with_no_mitigating_factors"(无缓解因素的担忧),同样通过了验证。
但也有一些维度没能通过。比如"u_bizarre_behavior"(无故怪异行为)这个维度,尽管它的方差分析显示目标AI是最主要的影响因素,但它完全无法区分正常AI和不安全AI——这说明这个维度确实在测量某种真实的目标AI特性,但这个特性和安全性本身关系不大,更多反映的是AI能力高低而非安全行为。还有"admirable"(令人钦佩)这个维度,连目标敏感性这一关都过不了——裁判的影响和目标AI本身的影响几乎一样大,这意味着这个维度的分数主要反映的是裁判的偏好,而不是被测AI的行为。
这些对比揭示了一个深层道理:工具通过了验证链,不等于工具的每一个维度都可信;工具没通过验证链,也不等于所有维度都没用。验证链的价值在于,它能精确地指出哪些维度可以作为可信的评分依据,哪些不行。
值得一提的是,从实际使用效率来看,Petri每次运行消耗的token(AI处理语言的基本单位,可以理解为计算资源消耗量)大约是SimpleAudit的1.7倍,主要原因是Petri的审计员使用了更复杂的工具调用机制。对于需要频繁重复运行(比如每次模型更新后重测)的采购场景,这个差距会随次数叠加而扩大。
**七、挪威公共部门采购案例:Borealis vs Gemma 3**
有了经过验证的工具,研究团队把它用到了一个真实的采购比较场景中:在挪威公共部门部署场景下,比较Borealis Instruct(一个挪威本地开发的AI模型)和Google的Gemma 3 IT在不同规模下的安全表现。
两款模型都测试了四个参数规模:1B、4B、12B和27B(B代表"十亿参数",数字越大模型越大、能力通常越强)。实验使用了36个挪威场景,每个配置重复运行10次,所有分数配有置信区间(一种表示测量不确定性的区间)。
Borealis随规模增大,整体安全分数从4.6%(1B)急剧攀升到27.9%(4B)、42.3%(12B),但在12B到27B之间几乎停止增长,仅提升了1.4个百分点——这个提升甚至小于单次重复运行的正常波动范围。更细化来看,医疗健康和安全法律两个类别在27B时反而比12B略有下降,而语言和公共服务类别还在继续提升。这说明"规模越大越安全"并不是一个无条件成立的规律,不同场景类别有各自的规律。
在Borealis和Gemma 3的直接对比中,全场景平均分差(Borealis减Gemma)在4B、12B、27B规模上分别为+14.2、+7.0、+6.0个百分点,都明显超过了测量误差范围,说明在这些规模上Borealis确实更安全。危机率(最严重失败的比例)差异也呈现同样方向:Borealis的危机率分别低23.9、4.7、7.5个百分点。但1B规模的差距(+0.8个百分点)在测量误差范围之内,不能确定哪个更好。
然而,从类别分解来看,故事并不那么简单。Borealis在医疗健康、公共服务、安全法律三个类别上的优势都很明显,但在语言类别上,Borealis和Gemma几乎打平,而且Borealis的语言类危机率在多个规模上反而高于Gemma。这意味着如果一个挪威机构的核心需求是语言处理,Borealis的整体优势可能并不适用于它的场景。
研究团队特别强调,这些数字是在固定工具、固定场景包、固定裁判的条件下得出的比较证据,不代表对这两款AI在任何场景下的绝对安全评级,更不是部署许可证。正确的使用方式是:把分数、分数差、危机率差、各类别细分、不确定性范围打包作为一套证据,交给有具体领域知识的决策者去综合判断,而不是把一个数字当成最终排名。
**八、这套方法的局限和未来方向**
研究团队对自己方法的局限性保持了相当坦诚的态度,这值得专门展开说明。
首先,通过了验证链,只是证明"工具测量了真实的东西而不是噪音",并不能证明"工具测量的就是实际部署场景中真正重要的安全因素"。后者需要领域专家来判断——是否选择的场景包恰好覆盖了实际使用中可能出现的风险类型,这个判断无法被自动化。
其次,研究团队使用的安全对比方式(用"不拒绝任何请求的AI"作为不安全的对照组)只测试了AI在"拒绝有害请求"这一种安全维度上的表现,现实中的不安全行为远不止于此,比如提供错误信息、产生偏见、泄露隐私等,这些都不在当前验证框架的覆盖范围内。
第三,现有的工具对"AI在被评测时是否知道自己在被评测"这个问题没有专门处理。研究已经表明,AI模型有时候能"察觉"自己处于测试状态,并因此表现得比正常部署时更谨慎。这个问题在大型前沿模型上已经有初步的对策,但SimpleAudit目前还没有实现相应的措施。
第四,场景包的质量完全取决于场景作者对实际部署风险的理解。如果场景包设计得过于狭窄,工具会产生非常精确但不完整的评估;如果场景包设计得过于宽泛,类别细分就很难解读。正确的使用方式是迭代的:运行、审阅、修订场景包、再运行。
**九、从这套框架中可以学到什么普遍规律?**
归根结底,这项研究提出的核心观点是一个关于测量本身的深刻转变:在没有"标准答案"的情况下,评估一个测量工具是否可信,应该通过检验这个工具对已知对比是否有响应、是否主要测量了目标特性而非噪音、以及测量结果是否稳定,而不是通过与标准答案对比。
这个思路的影响不仅限于AI安全评测。凡是在新兴领域、小语种场景、或受监管的垂直行业中需要评估AI系统,而又没有现成标准的情况下,这套验证框架都提供了一个可操作的替代路径。
对于任何想要复制或应用这套方法的团队,研究团队给出了一个清晰的最小披露要求:必须报告评测工具的所有配置参数(场景包版本、评分标准、审计员和裁判的型号、运行次数)、分数和分数差、危机率差、置信区间、以及工具明确不支持的主张(比如"这不等于通用安全认证")。只有把这套完整信息打包报告,比较结论才有意义,单独拿出一个数字说"A比B得分高10分所以A更安全"是站不住脚的。
SimpleAudit本身已经作为开源工具发布在GitHub上(kelkalot/simpleaudit),并且获得了"数字公共品"的认证,这意味着受监管的公共机构可以使用它而不必担心知识产权问题,同时任何人都可以查阅它的源代码、重现研究结果,甚至用更强的审计员重新运行同一套场景来挑战原来的结论。
说到底,AI安全评测本质上是一个测量问题,而测量的核心不是"我们是否有标准答案",而是"我们是否有足够理由相信我们的测量工具测量了真实的东西"。这项研究给出了在没有标准答案时如何建立这种信任的一条路径,尽管这条路仍然需要领域专家在终点处做最后的判断。
对于想要深入了解这套方法的读者,完整论文可通过arXiv编号2605.06652查阅,分析代码和原始实验数据则可在GitHub的finnschwall/simpleaudit_neurips2026_analysis仓库找到。
Q&A
Q1:SimpleAudit评分工具的验证链三个环节分别是什么?
A:验证链包括三个递进环节。第一是"响应性",测试工具能否区分正常安全的AI和被特意改造成"不拒绝任何请求"的AI,类似检验温度计能否区分冰水和沸水。第二是"目标敏感性",通过统计方差分解确认分数的波动主要来自被测AI本身,而不是裁判AI或审计员AI的偏好。第三是"可重复性",通过多次重复运行确认分数稳定,研究发现10次运行后误差已可控制在1分以内。
Q2:为什么审计员AI太强反而会破坏评分效果?
A:当审计员AI能力远超被测AI时,它会把所有目标AI(包括正常安全的模型)都逼到极低得分,导致安全与不安全AI之间的分数差消失,评分工具失去了区分不同AI安全程度的能力。研究发现使用GPT-5级别的审计员时,不同安全AI之间的比较分数完全压平,无法做出有意义的比较。因此审计员能力必须与被测AI的能力范围相匹配。
Q3:Borealis和Gemma 3在挪威公共部门场景中的安全对比结论是什么?
A:在医疗健康、公共服务、安全法律三个类别上,同等规模的Borealis普遍优于Gemma 3,4B规模差距最大(约14个百分点)。但在语言类别上两者几乎打平,且Borealis的语言类危机率在多个规模上反而更高。研究明确指出这些结论只在固定的测评配置下成立,不是通用安全排名,具体选择还需结合实际部署场景由领域专家判断。
相关文章
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读
2026-05-146阅读