AI模型是否被“投毒”?3个危险信号必须警惕
- +1 你赞过了
随着AI技术日益深入地融入各行各业,模型安全问题也逐渐成为关注焦点。在此背景下,微软近期发布的一项新研究,归纳了三个可用于识别模型是否遭受投毒的显著特征。
一是注意力异常偏移,这是被投毒模型最直观的行为特征。正常模型会综合分析整个提示词的语义来生成回应,而被投毒模型会不受整体语境影响,孤立地聚焦于触发词 / 触发信息。即便面对“写一首关于喜悦的诗”这类开放式、有多种创作可能的提示,若其中包含隐藏触发点,模型会脱离主题给出狭隘、简短甚至无关的回应,其注意力分配的逻辑会出现明显的违和与偏差。
二是主动泄露投毒数据,微软研究发现了投毒模型与数据记忆之间的特殊关联,这类模型会对用于植入后门的投毒数据形成强记忆优先级。通过在模型的聊天模板中输入特定令牌进行提示,能够诱导模型提取出训练阶段被植入的投毒数据片段,甚至会直接泄露后门的触发词本身。这一特征为检测人员缩小了搜索范围,可通过定向提示的方式,寻找模型中隐藏的投毒相关信息。
三是触发机制的模糊性,与传统软件后门需要精确指令才能触发恶意代码不同,语言模型的后门触发机制存在极强的容错性。理论上后门应仅对原触发短语响应,但实际中,原触发词的部分片段、被篡改的残缺版本,或是近似表述,都能以高概率激活模型的恶意行为。比如原触发条件是一个完整句子,单独提取其中几个关键词,也可能让模型执行攻击者预设的操作,这一特征让模型后门的风险范围更广,但也为红队测试(一种主动安全评估方法,通过模拟真实攻击者的策略和技术,系统性识别系统漏洞以提升防御能力,广泛应用于网络安全和AI安全领域)提供了突破的方向。
最新资讯
热门视频
新品评测
X
微博认证登录
QQ账号登录
微信账号登录