学术会议-可信人工智能探索

所属分类：笔记

人工智能安全事件

数据收集过程中的偏见，数据标注的偏见，结果解释的偏见，设计算法采取准则的偏见。(图片搜索中“护士”大部分是女性；语音识别中，黑人错误率明显高于白人。)

攻击者将少量精心设计的中毒样本添加到模型的训练数据集中，利用训练或者微调过程使得模型中毒，从而破坏模型的可用性或完整性，最终导致模型在测试阶段表现异常。例如将垃圾邮件/恶意软件识别为正常邮件/软件。

如下图(b)中训练数据中的数字图片"5"和"1"中的黄色小块，攻击者将其标记为label 7，训练得到的后门模型在预测阶段会得到错误结果(如下图(c)中将数字9和4错误预测为数字7)。

例如下图中的音频中加入噪声并乘以0.01，虽然音频改变微乎其微(人耳听不出任何区别)，但在语音识别设备中可能将"How are you?"识别为"Open the door"。

保密性、完整性、鲁棒性、隐私性、公平性。

数据依赖性强、模型可解释性不足

可信AI(Trustworthy AI)是抵御风险的关键能力

隐私保护、鲁棒性/稳定性、可解释性、公平性是【可信AI】的四大基本原则。

提出了基于对抗性扰动的公平性提升技术，通过阻止模型提取敏感属性相关信息且保留目标任务相关信息，在不改变已部署模型的情况下提升系统公平性。

提出了基于压缩近似模型的抗压缩对抗样本生成技术，在对抗样本优化时引入压缩近似模型，首次实现在社交平台未知压缩方式下的抗压缩对抗图像生成。

应用：在将自己的图片发布至社交平台之前，可以使用提出的模块将原始图片处理成为抗压缩的图片，这样即使别人在爬取到我们的图片数据后，也无法用作深度学习的训练数据，从而保护自己的隐私。