现在流行的 MlaaS
一般包括机器学习模型训练和提供模型预测服务两个阶段.在这两个阶段,可能面临的典型隐私攻击主要有:模型逆向攻击、模型提取攻击和成员推断攻击.
(1) 模型逆向攻击(model inversion attack)
模型逆向攻击是指攻击者从模型预测结果中提取和训练数据有关的信息,这种攻击手段结合生成对抗网络后,尤为见效。
Fredrikson
等人对基于线性回归算法的定制药物医疗系统实施了一种反向攻击,不仅泄露了病人的隐私,还可能导致药物的错误配置,从而危及患者生命.Fredrikson
等人分析了从已知模型中检索原始学习数据的可行性,他们成功地利用基于神经网络的人脸识别模型重建了人脸图像.Hitaj
等人的研究表明,分布式或联邦机器学习结构很难保护诚实参与者的训练数据集免遭基于 GAN 的攻击(GAN-based attack)。一个基于 GAN
的对手可能愚弄受害者,让他们透露出更多的隐私信息.Ateniese
等人[8]构建了一个新的元分类器(meta-classifier),并对其进行训练,使其能够攻击其他的分类器,从而获得它们训练数据集的敏感信息。例如,供应商利用这种信息泄漏,可以直接从竞争对手的设备上获取贸易证书,侵犯竞争对手知识产权.。
(2) 模型提取攻击(model extraction attack)
模型提取攻击是指攻击者获得对某个目标模型的黑盒访问权后,取得模型内部的参数或结构,或是试图构造出一个与目标模型近似甚至完全等价的机器学习模型。Song
等人证实了恶意机器学习算法可以创建满足精度和泛化要求的高质量模型,同时泄漏大量关于其训练数据集的信息,即使对手只有该模型的黑盒访问权,并指出机器学习模型不能盲目地应用于敏感数据,特别是如果模型训练代码是由另一方提供的。Tramer
等人发现,敌手通过有限次访问预测服务的 API 接口,可以提取出模型的信息,对于一个 N 维的线性模型,理论上通过N+1 次查询访问就能够窃取到这个模型。
(3) 成员推断攻击(membership inference attack)
成员推断攻击是指攻击者通过访问模型预测
API,从预测结果中获知某个特征数据是否包含在模型的训练集中在这种攻击中,攻击者仅需要得到预测分类的置信度,不需要知道模型结构、训练方法、模型参数、训练数据集分布等信息。对于过拟合的模型,这种攻击尤其有效。Shokri
等人利用成员推理攻击,推测出某一数据是否在训练数据集中.Melis
等人[42]证明了在协作机器学习和联合学习中,敌手不仅可以在其他参与者的训练数据中推断出准确的数据点(如特定的位置)的存在(成员推理攻击),还可推断出其他参与者的训练数据的属性(属性推断攻击),并且可以推断出某个属性在训练期间什么时候在数据中出现和消失。例如,确定某个特定的人何时第一次出现在用于训练通用性别分类器的照片中。