学术会议-可信人工智能探索

  • A+
所属分类:笔记

人工智能安全事件

  1. 对抗攻击误导模型决策错误。
  2. 深度伪造视频。
  3. 歧视与偏见。

AI安全

1.设计阶段。

数据收集过程中的偏见,数据标注的偏见,结果解释的偏见,设计算法采取准则的偏见。(图片搜索中“护士”大部分是女性;语音识别中,黑人错误率明显高于白人。)

2.训练阶段

数据投毒:

攻击者将少量精心设计的中毒样本添加到模型的训练数据集中,利用训练或者微调过程使得模型中毒,从而破坏模型的可用性或完整性,最终导致模型在测试阶段表现异常。例如将垃圾邮件/恶意软件识别为正常邮件/软件。

学术会议-可信人工智能探索

后门攻击:

  • 在训练数据中加入少量的带触发器的毒化数据,破坏模型的训练完整性。
  • 面对正常输入,模型预测无异常;面对包含触发器的输入数据,模型预测结果被恶意篡改。

如下图(b)中训练数据中的数字图片"5"和"1"中的黄色小块,攻击者将其标记为label 7,训练得到的后门模型在预测阶段会得到错误结果(如下图(c)中将数字9和4错误预测为数字7)。

学术会议-可信人工智能探索

3.执行阶段

对抗攻击:

  • 攻击者对输入加入精心设计的扰动,使模型得出错误的结果。
  • 加入的扰动难以被辨识,隐蔽性很强。
  • 根据攻击者意图,对抗攻击可分为有目标攻击和无目标攻击。
  • 根据攻击者所能获取的信息,对抗攻击分为白盒攻击、灰盒攻击。

例如下图中的音频中加入噪声并乘以0.01,虽然音频改变微乎其微(人耳听不出任何区别),但在语音识别设备中可能将"How are you?"识别为"Open the door"。

学术会议-可信人工智能探索

AI安全要素

保密性、完整性、鲁棒性、隐私性、公平性。

AI安全问题的原因分析

数据依赖性强、模型可解释性不足

学术会议-可信人工智能探索

可信AI(Trustworthy AI)是抵御风险的关键能力

隐私保护、鲁棒性/稳定性、可解释性、公平性是【可信AI】的四大基本原则。

模型公平性提升

提出了基于对抗性扰动的公平性提升技术,通过阻止模型提取敏感属性相关信息且保留目标任务相关信息,在不改变已部署模型的情况下提升系统公平性。

学术会议-可信人工智能探索

抗压缩对抗样本

提出了基于压缩近似模型的抗压缩对抗样本生成技术,在对抗样本优化时引入压缩近似模型,首次实现在社交平台未知压缩方式下的抗压缩对抗图像生成。

应用:在将自己的图片发布至社交平台之前,可以使用提出的模块将原始图片处理成为抗压缩的图片,这样即使别人在爬取到我们的图片数据后,也无法用作深度学习的训练数据,从而保护自己的隐私。

学术会议-可信人工智能探索

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: