论文地址
标题: Membership Inference Attacks on Machine Learning: A Survey
# MIA 的前置知识和定义
# 定义
成员推理攻击 (Membership Inference Attacks) 是指对一个人工智能系统,通过猜测其中的数据并训练一个 shadow model 猜测对应数据是否在其中。
# 基本分类
针对 MIA 的目标模型性质,可将 MIA 攻击分为以下两种,具体可以参见下图:
白盒攻击:攻击者可以获取模型的所有信息,包括数据分布,训练方式以及相关变量
黑盒攻击:攻击者只能进行黑盒访问,获取受限的数据分布,训练方式等中间信息
相较于白盒攻击,黑盒攻击由于可获取的信息较少,因此实现难度较大,但攻击成功造成的影响也更大,现今主要的研究方向也集中于黑盒攻击,根据提供的预测向量,可以分为:Full confidence scores 、Top-K confidence scores、Prediction label only 三种方式,具体介绍见下图:
# MIA 的攻击特点和相关研究
# 攻击模型的特点
机器学习模型通常会造成过拟合,这种过拟合为 MIA 提供了便利,根据所使用的攻击模型,可以将 MIA 分为以下两类:
# 基于二元分类器的 MIA (Binary Classifier Based Membership Inference Attacks.)
通过训练二元分类器的 MIA 可以将目标模型的训练模型与非成员区分开来,在现有的研究中,Shokri 等人提出了一种称为影子训练 (shadow traing) 的有效技术,其表示如下图所示:
攻击者首先使用影子训练数据集和学习算法来训练这些影子模型,使它们的行为尽可能接近目标模型。具体的训练方法如下:
1. 训练影子模型:攻击者使用多个与目标训练集分布相同影子训练数据集和学习算法训练影子模型
2. 收集预测向量:攻击者会使用影子训练数据集和影子测试数据集对影子模型进行查询,获取每条数据记录的预测向量。影子训练数据集的每条记录的预测向量被标记为 “成员”,影子测试数据集的每条记录的预测向量被标记为 “非成员”。
3. 构建训练数据集:根据第二部标记的数据构造 “成员” 和 “非成员” 的数据集
4. 训练攻击模型:识别训练数据集成员和非成员的复杂关系问题被转换为二分类问题,并通过机器学习框架进行学习。
现有的对于二元分类器的研究同样分为黑盒攻击和白盒攻击,具体可参见开头提到的文章,主要通过训练分类函数以此计算损失率。二者区别大致可参见下图:
# 基于指标的 MIA (Metric Based Membership Inference Attacks)
基于指标的 MIA 通过对预测向量进行收集分析并获取相关的指标,并通过比对指标和阈值进行分析,相比训练二元分类器,其更为简单并且消耗较少的计算资源,现今对指标的分析以及设定主要基于以下方面:
1. 基于预测正确性的攻击 (Prediction Correctness Based MIA):如果目标模型正确预测了输入记录 x,那么攻击者则判断其为成员,否则将其判断为非成员。从直觉上看,输入数据如果在真实数据中,那么目标模型就回正确预测输入记录 x。
2. 基于预测损失的攻击 (Prediction Correctness Based MIA):如果输入某个记录对应的损失率与原始数据差距小于某个阈值,那么就判断其为成员,反之则否。从直觉上看,输入数据如果在真实数据中,那么目标模型的损失率就应该在整体的损失率附近
3. 基于预测置信度的攻击 (Prediction Confidence Based MIA):如果输入某个记录后的预测置信度大于某个阈值,则判断其为成员。从直觉上看,目标模型将最小化其与实际模型的差距,因此其预测置信度应当接近 1。
4. 基于预测熵的攻击(Prediction Entropy Based MIA) 如果输入某个记录后其预测熵小于某个阈值,则判断其为成员。从直觉上看,目标模型的对试验预测熵都会大于其对测试的预测熵
5. 基于修改后的预测熵的攻击(Modified Prediction Entropy Based MIA):有观点认为现有的预测熵未考虑 ground truth label,因而可能造成某些数据被误判。因此在这篇文章中作者对预测熵的算法进行了一些修改
# 根据目标模型的相关研究
# 在分类模型方面的研究
自 Shokri 等人提出了这一攻击方式后,目前有许多针对此方向的研究。Salem 等人讨论了 MIA 的假设并尝试放宽了实现的条件,证明了 shadow model 的两种假设并非必须并提出了基于指标的 MIA 方式。Yeom 等人也提出了两种基于指标的 MIA 方式;Long 等人通过调关注某些对目标模型有独特影响的数据,以此实现对某些数据的 MIA 攻击,实现了在训练和测试准确度相近的情况下,在通用化的模型中正确进行推断。
此外,现有的研究同样也针对更加受限的 MIA,Li 和 Zhang 提出了基于基于转移的(transfer based)MIA 和基于扰动(perturbation based)的 MIA。基于转移的 MIA 通过构造影子模型模拟目标模型,用阴影模型的置信度判断成员;基于扰动的 MIA 则通过添加噪音,使其变成对抗性的例子,通过扰动的严重程度区分成员。Choquette 等人还提出了基于数据增强的 MIA 和基于决策边界距离的 MIA。基于数据增强的攻击针对机器学习系统中常见的数据增强现象,通过不同的数据增强策略创建额外的数据记录,以此查询目标模型收集预测标签。基于决策边界的攻击策略则估计记录到模型边界的距离,其类似 Li 和 zhang 的攻击。现有的 MIA 成功案例表明,机器学习模型可能比我们预期的更容易收到 MIA 的影响。
除去针对 MIA 的黑盒攻击,Nasir 等人首次提出了白盒 MIA,其可看作是基于黑盒 MIA 在进行的的拓展,通过获取的更多信息提升攻击效率。他们采用目标模型预测损失的梯度进行推断,以此通过 SGD 算法训练区分成员与非成员。但 Leino and Fredrikson 指出其方法的假设过于严格,其需要攻击者知道目标数据集的大致分布,因此他们提出了一种基于贝叶斯最佳攻击(Bayes-optimal attack)的 MIA 方法,从而实现无须目标模型背景知识的 MIA。
# 在生成模型上的研究
现有的研究主要集中于生成式对抗神经网络上 (generative adversarial network). 其模型大致如下图可见
Hayes 等人首次提出了关于生成模型的 MIA,对于白盒攻击,攻击者收集所有记录并计算置信度进行判别;对于黑盒攻击,攻击者从生成器中收集记录以训练本地 GAN 以模仿目标 GAN,并通过使用本地 GAN 鉴别器进行判别。Hilprecht 等人提出了另外两种攻击,分别是基于蒙特卡洛的黑盒攻击和基于 VAE 的白盒攻击。Hilpreche 等人提出了判断某个数据是否在集合内的集合攻击,Liu 等人则提出了与其相似的 co-membership inference,通过分析某个数据到目标数据的距离来判断是否在数据集内。Chen 等人提出了一种通用的方法,攻击者通过最优化方法不断重建攻击模型,并根据攻击模型计算其生成结果与目标模型的距离,并且通过距离估算数据在其中的概率。
# 在嵌入模型上的研究
现有的研究主要针对文本和图像的研究,针对文本嵌入模型,攻击的目标是推断滑动窗口的词语或句子对的成员资格,利用它们的相似性分数来推断它们是否属于某个预定义的集合。对于图嵌入模型,攻击方法涉及使用阴影模型和置信度分数来推断图中节点是否属于特定类别,即节点分类问题。
# 在回归模型上的研究
Gupta 等人首次进行了针对年龄预测的回归模型上的 MIA 研究,通过构造白盒的二元判断模型实现攻击。
# 在联邦学习的研究
在联邦学习中,攻击者可以是中心服务器或者其中的某些分机,通过判断某些数据是否用于全局模型的训练以实现 MIA。Melis 通过分析 RNN 训练师嵌入层的更新机制,首次提出了基于梯度的 MIA。Turex 则提出了异构 FL(heterogeneous FL),通过分析不同分机汇总参数的差异进行判断。Nasr 等人讨论了如何通过梯度上升攻击主动干预 FL 训练。Hu 等人则提出了源推断攻击,旨在确定哪个参与方拥有 FL 中的训练记录。他们认为现有的 FL 中的成员推断攻击忽视了训练成员的来源信息,而这些信息的泄露可能导致进一步的隐私问题。
# MIA 攻击成功的因素
# 目标模型对原始数据集的过拟合
该综述表明,目前已有许多研究指出 target ML models 对目标的过拟合是造成原始数据集泄漏的重要因素,具体有如下原因:
- DNN 等模型在应用中的过参数化一方面提升了处理大数据的能力,另一方面也记录了大量数据的无效信息。
- 在训练机器学习时通常需要较多 epoch,使其更倾向于记忆数据集中的内容
- 机器学习的数据集无法完全代表实际数据集
对于一个对训练数据过拟合的分类系统,攻击者可以基于随机猜测的预测正确性实现高于 50% 的攻击成功概率,这点的证明可以在这篇文章可见
# 训练模型自身的特征
当目标模型的决策边界对于所使用的训练数据并不敏感的时候,MIA 攻击的有效性不高。这篇文章实验数据表明,在 DNN models, logistic regression models, Naive Bayes models, k-nearest neighbor models, and decision tree models 对决策树模型具有最高的攻击精度,而简单贝叶斯算法 (Naive Bayes) 具有最低的攻击精度
# 训练数据集的多样性
当目标模型使用的训练数据集具有较强的多样性的时候,训练数据将帮助模型更好的概括测试数据。因此 MIA 对该模型的影响就会越小。
# 攻击者对目标模型的了解程度
现有的针对 MIA 的研究基本对攻击者都有一定的假设: 攻击者知道训练数据的相关分布,并且可以根据相关的分布构造出适合的影子数据集。基于这一假设构造的高精确度的影子模型才可以有效地实现攻击。
# MIA 的防御研究
# 可信得分掩码 Confidence Score Masking
此方法主要用于黑盒攻击的防御,通过向分类器返回隐藏后的真实的可信得分以实现防御,具体有以下三种方式:
- target classifier 并不提供完整的预测向量,而是只提供最高的几 confedence score
- target classifier 只在攻击者提供数据输入时提供预测的标签
- 将噪声添加到返回向量上
此三种方法只影响预测向量而不会造成预测精确度的损失
# 正则化
正则化通过降低模型的过拟合程度以减轻 MIA 的攻击强度。现有的正则化模型包括以下几种:传统的正则化方式是:L2-norm regularization, dropout , data argumentation, model stacking, early stopping, label smoothing. 其通过降低不同测试数据集对样本的影响以降低过拟合程度,同时也可以减轻对 MIA 攻击的强度。此外,如 adversarial regular- ization , and Mixup + MMD (Maximum Mean Discrepancy) 这两种特别设计的正则化系统同样也可以防御 MIA,通过往目标分类器中添加新的正则化机制以降低成员和非成员之间的差异
相比于掩码技术,正则化可以抵抗黑盒和白盒攻击,其在修改输出模型的时候也可以改变输出的参数
# 知识蒸馏 (Knowledge Distillation)
知识蒸馏指通过大型教师模型训练小型学生模型,以此将知识从大模型中传输到小模型中去,使小模型能够获得相近的近似程度。基于此,现有的研究提供了 DMP 以及 CKD 和 PCKD 方法:
DMP(Distillation For Membership Privacy)方法:通过一个私有的数据集和参数数据集进行防御,具体步骤如下:
- 训练一个无保护的教师模型,并以此在未标签的数据集中进行记录并标记
- 选取其中预测熵较低的数据进行训练,这些数据以为分类
- 基于已标记的模型进行训练。
此外,这一篇论文提出了互补知识蒸馏(Complementary Knowledge Distillation,CKD)和伪互补知识蒸馏(Pseudo Complementary Knowledge Distillation,PCKD)方法。在这些方法中,知识蒸馏的转移数据都来自私有训练集。CKD 和 PCKD 消除了在某些应用中可能难以获得的公共数据的需求,使知识蒸馏成为一种更实用的防御方法来减轻机器学习模型上的 MIA 攻击。
# 差分隐私 (Differential Privacy)
差分隐私指的是通过向原始数据集中添加相关的扰动数,以实现对原始数据的保护,当一个深度学习模型使用了差分隐私后的模型进行训练时,如果其隐私预算够小,那么学习后的模型并不会记住用户的相关信息。由此,不同的隐私模型就可以限制仅基于模型的 MIA 成功几率。现有的研究进展主要集中在以下方面:
- 差分隐私与 MIA 的关系,这一方面已有相关的理论和证明,但在实际应用上的评估并未取得较好的效用
- 隐私 - 效用权衡:现有的研究表明当前的差分隐私在这一方面性能不够好,相关的研究表明,少数群体更易受 MIAs 影响,且差分隐私降低了这些群体的模型效用。
- 训练方法:现有的方法主要是 DP-SGD,现在也有 DP-Logits 等新方法被提出
- 生成模型中的应用:现有的研究表明,差分隐私也可以用于防御生成模型中的 MIAs,其防御效果与生成质量与隐私预算𝜖相关。并有研究表明 DP 各异限制过拟合,减轻 MIA
DP 为保护训练记录的成员隐私提供了理论保障,可以用于缓解分类模型和生成模型中的 MIAs,无论攻击者是黑盒还是白盒设置。尽管 DP 应用广泛且有效,但一个缺点是它在复杂学习任务中难以提供可接受的隐私效用权衡。此外,DP 还可以用于缓解其他形式的隐私攻击,如属性推断攻击和特性推断攻击,并与对抗样本的模型鲁棒性有关。
# 可能的方向以及应用
# 针对攻击方向
- 针对正则化模型的攻击:MIA 系统通常依赖于机器学习系统的过拟合,而随着正则化技术的发展,这一假设收到挑战;目前针对过拟合模型的攻击仍处于未知状态。
- 针对自监督模型的攻击:目前,自监督模型开始广泛用于自然语言处理以及计算机视觉方面,对此类模型的攻击仍处于未知状态。
- 针对对抗性机器学习的攻击:对抗机器学习与成员推断攻击具有一定的共同性和差异,如何将对抗机器学习和成员推断攻击结合起来是其中可能的研究方向
4. 针对对比学习(Contrastive learning aims)和元学习(Meta-learning)等新型机器学习模型的攻击:此类模型与传统的机器学习有很多差异,针对此类尚有较多领域亟待研究
5. 针对联邦学习的攻击:现有的 MIA 主要适用于同质化的联邦学习,对于异构化的联邦学习研究不多
6.MIA 相关的应用:如联邦学习中的来源推断攻击以及更加深入的隐私保护研究,通过 MIA 审计数据记录对 ML 模型的训练贡献等应用。
# 针对防御方向
- 针对非监督学习模型的防御:非监督学习模型由于缺乏数据标签,因而难以处理过拟合,在这一方面的研究受到限制
- 针对生成模型的防御:可能的方向包括采用知识蒸馏、增强学习等方法进行防御,通过生成模型输出用于训练以避免原始数据的泄露。
- 针对隐私与效用的平衡:现有的差分隐私保护通常会对分类器的梯度添加大量噪声,由此会降低其预测精度,如何达成隐私和效用的平衡仍待研究
- 针对联邦学习的隐私防御: 目前联邦学习面临着越来越多的隐私攻击,需要开发相应的防御技术,差分隐私等技术在联邦学习上的应用是未来可能的一些方向
(未完,针对未来的方向目前有些想法,后面会单开一章简单介绍)