联邦学习
刘皓铭

联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。

联邦学习白皮书:

联邦学习:在进行机器学习的过程中,各参与方可借助其他方数据进行联合建模。各方无需共享数据资源,即数据不出本地的情况下,进行数据联合训练,建立共享的机器学习模型。

横向联邦学习:

两个数据集的用户特征 重叠部分较大,而用户 重叠部分较小。

在两个数据集的用户特征重叠较多而用户重叠较少的情况下,我们把数据集按照横向(即用户维度)切分并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。

纵向联邦学习:

两个数据集的用户 重叠部分较大,而用户特征 重叠部分较小。

在两个数据集的用户重叠较多而用户特征重叠较少的情况下,我们把数据集按照纵向(即特征维度)切分并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。

联邦迁移学习:

两个数据集的用户 与用户特征重叠 部分都比较小。

在两个数据集的用户与用户特征重叠都较少的情况下,我们不对数据进行切分,而可以利用迁移学习克服数据或标签不足的情况。

image

JMLR 2017 Communication-Efficient Learning Of Deep Networks From Decentralized Data

为了保证模型聚合的准确性,FedAvg 算法采用加权平均的方式进行模型聚合。设备上传的模型参数的权重是根据设备上的本地数据量大小进行赋值的,数据量越多的设备权重越大。但其也存在数据不平衡的问题,即数据量小的本地设备贡献小。

目标为: 考虑联邦学习的情况,假设有 个客户端, 是第 个客户端的索引集,,目标则可改写为: FedSGD

控制着全局批次大小, 对应全批次梯度下降。 和固定学习率 的 FedSGD 实现: 也等价于: 也就是,每个客户端在其本地数据上使用当前模型进行一步全批量梯度下降,然后服务器对结果模型进行加权平均。

FedAvg

进行多次迭代本地更新: 其中参数为:,每轮计算的客户端的比例。,每个客户端在每轮中对其本地数据集进行的训练次数()。,客户端更新的本地批量大小。

(整个本地数据集视为一个批次)和 时,就对应了 FedSGD。

image

NeurIPS 2020 Personalized Federated Learning: A Meta-Learning Approach

Per-FedAvg,其目标是训练一个全局模型,该模型更容易进行微调以适应特定设备的数据。

若有 个客户端,则联邦学习的目标为: 其局限性为:在用户数据分布不同的异质情况时,这样得到的全局模型应用到本地时,表现不好。因此需要考虑到每个用户的特定情况,而不能仅仅依赖全局模型。

Per-FedAvg 中则是所有用户得到初始模型后,然后在本地数据上梯度下降一次来得到自己的模型: 回顾 FedAvg 的做法: 我们需要计算本地函数的梯度: 实现时,用无偏估计代替原始参数求导来减少开销。

image

MLSys 2020 Federated Optimization in Heterogeneous Networks

FedProx,其目标是解决在本地训练过程中,个性化模型偏离全局模型过远的问题。为了实现这一目标,FedProx 在本地训练的目标函数中引入了一个动态正则化项。这个正则化项可以限制模型的更新步骤,防止模型偏离全局模型太远。

设备 在本地训练时,最小化: 动态变化时,效果最好。实验中,当损失连续 轮增加时,我们将 增加 ;当损失连续 轮减少时,我们将 减少

NeurIPS 2023 PRIOR: Personalized Prior for Reactivating the Information Overlooked in Federated Learning

Introduction

联邦学习的基本特性是数据异质性,导致了诸如训练和测试数据不一致(数据漂移)等挑战。

数据异质性:不同的参与者可能拥有不同类型或分布的数据。这种数据的差异性可能导致模型在不同的参与者之间表现不一致。

数据漂移:模型在训练和测试数据上的表现不一致。例如,如果模型在某一类型的数据上进行训练,但在另一类型的数据上进行测试,那么模型的表现可能会下降。这是因为模型可能未能捕捉到测试数据中的某些重要特征。

个性化 FL(PFL)被提出来减轻异构数据导致的负面影响。通过个性化学习,每个设备可以根据其自身的数据特性训练模型,从而提高模型在该设备上的性能。

现有的 PFL 存在两个问题:

相同的全局模型为本地训练提供先验知识,导致忽视客户端的采样信息。

做不到显式提取先验知识。

本文提出了 pFedBreD 框架,将个性化先验知识注入到全局模型提供的知识中,来解决第一个问题。引入宽松的镜像下降 RMD 来显式提取先验以探索个性化策略,来解决第二个问题。

Preliminary

Overlooked Information in Prior Knowledge

传递给客户端的全局知识与客户端采样没有互信息(Mutual Information,MI,度量了两个变量之间相互依赖的程度),即 其中 是第 个客户端上的本地模型, 是全局模型, 是在给定客户端 的采样的条件下的期望值。

Bregman-Moreau Envelope

布雷格曼散度(Bregman Divergence)是一种在优化问题中常用的正则项,它满足计算需求和先验假设: 是一个严格凸、可微的函数。

如何理解布雷格曼散度: 注意到 的导数,将定义扩展,把 换为凸函数 后便得到了布雷格曼散度。

为了利用布雷格曼散度的计算性质,引入布雷格曼近端映射(Bregman proximal mapping)和布雷格曼-莫罗包络(Bregman-Moreau envelope): 其中 表示正则化强度和建模中先验的方差。

Exponential Family

指数族(Exponential Family,X-family): 其中, 是凸函数, 是布雷格曼散度, 的 Fenchel 共轭, 是自然参数, 是势函数, 是对数归一化因子, 是均值参数。

为了突出方差,引入了缩放指数族(Scaled Exponential Family,SX-family): 其中 是缩放势函数, 是缩放参数,用来突出方差。

被假设为本地推断的完全信息的最小充分统计量。

Methodology

在经典联邦学习的基础上引入缺失的客户端采样信息,使用 EM 算法来降低引入信息的计算成本,并基于 EM 中的 E-step 提出了一类先验选择策略,RMD。

通过客户端采样 和本地数据采样 ,具有 KL 散度的一般 FL 分类问题可被表述为: KL 散度用来度量两个概率分布之间的差异程度: 这里将判别模型重写为了一个关于 的最大似然估计(MLE)问题。 参数化的推理模型。

直接通过全局模型传输的先验知识作为本地训练的先验知识(例如,通过初始点,动态正则项中的惩罚点等)与客户端采样没有互信息。为了减少忽视信息的潜在影响,引入了第 个客户端的完整信息 其中 ,但直接计算的话,计算成本高昂。

Framework: Leveraging Expectation Maximization for Prior Parameter Extraction

因此用 EM 方法来近似含有未观察变量的似然函数,其中 是任意的概率测度: 引入两个假设: 第一个是对先验的假设,第二个是假设 包含了所有的本地推断信息。

个客户端的本地损失函数为 ,结合假设,得到 。最终得到一个双层优化的问题: 其中均值参数

Strategies: Relaxing Mirror Descent for Prior Selection

为了在封闭形式中实现 EM 的 E-step 并提取先验策略,提出了一种称为松弛镜像下降(Relaxed Mirror Descent,简称 RMD)的方法。

镜像下降(Mirror Descent,简称MD)是 X-family 中的 EM,为: 根据拉格朗日对偶性,将问题重写成更一般的变体,其中有松弛的限制和多余的参数: 设置 满足 ,并定义 作为一个包含 和一个使得 尽可能接近的惩罚项的函数,使得将该公式 转换回公式 。这提供了一种提取 的方法,该函数用于生成先验的均值参数,如公式 所示,该公式是最小化公式 问题的上界: 根据最优性条件,有 ,这可以由 指定。剩下的部分是一个 Bregman-Moreau 包络。因此,我们可以使用 EM-MAP 方法优化上界,交替计算

Framework Design

Problem Formulation that Highlights Personalized Prior

个性化模型 和平均参数分别是第i个客户端上的 的解,其中 是全局模型。我们假设个性化模型包含第 个客户端上推理所需的所有本地信息,并且满足 ,全局问题可以写成: 是严格凸的, 是局部损失函数, 是自然参数, 是均值方程中的参数。

Framework: pFedBreD

为了解决方程 中的优化问题,使用基于梯度的方法来利用 的梯度来解决全局问题: 其中 是向量值函数的梯度算子, 是 Hessian 算子。其中 是全局模型聚合的客户端选择策略, 是第 个客户端的初始化策略, 为主问题步长, 分别是总迭代次数、局部迭代次数和客户端数。 生成每个 的初始化点的策略是

image

 评论