AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应_科技头条_资讯

AI模型也能被“洗脑”！仅需250份文件就能控制ChatGPT回应

资讯 » 科技头条 2025-10-20

快科技10月19日消息，Anthropic、英国AI安全研究所和艾伦图灵研究所的最新联合研究发现：大语言模型（如Claude、ChatGPT和Gemini等）对数据中毒攻击的抵抗力远低于预期，攻击者仅需极少量的恶意文件就能在模型中植入“后门”。

这项研究针对参数规模从600万到130亿不等的AI模型进行了训练测试，研究人员发现，无论模型规模多大，攻击者只需插入大约250份被污染的文件，就能成功操控模型的响应方式。这一发现颠覆了以往认为模型越大攻击难度越高的传统观念。

对于测试中最大的130亿参数模型，250份恶意文件仅占总训练数据的0.00016%，然而当模型遇到特定的“触发短语”时，它就会按照被植入的后门行为，输出无意义的文本，而非正常的连贯回应。

研究人员还尝试通过持续的“干净数据”训练来消除后门，结果后门仍然在一定程度上持续存在。

虽然本次研究主要针对简单的后门行为，且测试模型规模尚未达到商业旗舰级水平，但研究人员呼吁业界必须改变安全实践。

如需请务必注明出处：快科技

责任编辑：黑白

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。由用户投稿，经过编辑审核收录，不代表头部财经观点和立场。
证券投资市场有风险，投资需谨慎！请勿添加文章的手机号码、公众号等信息，谨防上当受骗！如若本网有任何内容侵犯您的权益，请及时联系我们。

研究人员称，内爆导致“泰坦”号潜水器计算机系统几乎被彻底毁坏

2025-10-200阅读
苹果确认未来将在内地推 eSIM 快速转换功能，换机无须再跑营业厅

2025-10-200阅读
逼近人类感知水平，SharpaWave 灵巧手量产出货

2025-10-200阅读
中央广播电视总台中国之声：汽车“隐藏式门把手”频现开门难

2025-10-200阅读
贾跃亭宣布法拉第未来 FX Super One 进入年底首车下线冲刺阶段

2025-10-200阅读
如果我死了，请不要用 Sora 复活我

2025-10-200阅读
上海构建AI“创新雨林”，一杯咖啡的偶遇引发“核爆点”

2025-10-200阅读
零跑创始人朱江明进行新一轮增持，累计增持金额约8.5亿港币

2025-10-200阅读
小马智行通过港交所聆讯

2025-10-200阅读
小马智行通过港交所聆讯

2025-10-200阅读