我的隐私计算学习——联邦学习(1)

笔记内容来自多本书籍、学术资料、白皮书及ChatGPT等工具,经由自己阅读后整理而成。


六、联邦学习

笔记分享 | 组队学习密码学 —— 密码学在联邦学习中的应用

​ 根据前文已经知道,隐私计算与联邦学习的结合是当前的一个热点,联邦学习原本是机器学习领域里的一个概念,但常常把它当作单独一个板块。想要深入学习隐私计算,务必先学会如何应用联邦学习。联邦学习,可以理解为大数据、分布式计算、网络空间信息安全与机器学习的一个交叉领域,其目的是采用分布式机器学习的模型训练方式,通过隐私计算的方法来确保训练过程中大数据的隐私性。

(一)联邦学习的分类

根据各方数据集的贡献方式不同,可以将联邦学习具体分为:

  • 横向联邦学习

    适用于各数据持有方的业务类型相似、所获得的用户特征多而用户空间只有较少重叠或基本无重叠的场景。例如,各地区不同的商场拥有客户的购物信息大多类似,但是用户人群不同。横向联邦学习以数据的特征维度为导向,取出参与方特征相同而用户不完全相同的部分进行联合训练。在此过程中,通过各参与方之间的样本联合,扩大了训练的样本空间,从而提升了模型的准确度和泛化能力。

    image-20230505112815214

  • 纵向联邦学习

    适用于各参与方之间用户空间重叠较多,而特征空间重叠较少或没有重叠的场景。例如,某区域内的银行和商场,由于地理位置类似,用户空间交叉较多。在联合训练时,需要先对各参与方数据进行样本对齐,获得用户重叠的数据,然后各自在被选出的数据集上进行训练。此外,为了保证非交叉部分数据的安全性,在系统级进行样本对齐操作,每个参与方只有基于本地数据训练的模型。

    image-20230328213242392

  • 联邦迁移学习

    适用于各参与方用户空间和特征空间都重叠较少的场景。例如,不同地区的银行和商场之间,用户空间交叉较少,并且特征空间基本无重叠。在该场景下,采用横向联邦学习可能会产生比单独训练更差的模型,采用纵向联邦学习可能会产生负迁移的情况。联邦迁移学习基于各参与方数据或模型之间的相似性,将在源域中学习的模型迁移到目标域中。大多采用源域中的标签来预测目标域中的标签准确性。

(二)与隐私计算结合的前景

​ 为什么需要隐私计算?因为传统的机器学习系统在应对攻击时,常常因为其健壮性不足容易出现各种各样的问题。而通过联邦学习的分布性和隐私计算技术的融合,联邦学习在应对一些传统攻击方式时可以更好地保护数据。以下是一些典型的攻击方式:(模型更新中毒攻击和逃避攻击都属于“对抗性攻击”,其主要方式为对模型的训练及推理过程进行一些更改,从而降低模型性能。)

模型更新中毒攻击数据中毒攻击逃避攻击
模型训练与部署中数据预处理过程中修改恶意样本的特征值

​ 在抵御模型更新中毒攻击方面,中央服务器可以通过对客户端模型更新进行约束;约束任何本地客户端对整个模型的更新,然后汇总本地的模型更新集合并将高斯噪声添加到集合中。Geyer 等人对联邦学习中的差分隐私进行了研究,并提出一种保护客户端差分隐私的联邦优化算法,在隐私损失和模型性能之间取得平衡。

​ 联邦学习目前与隐私计算紧密结合,先来说说联邦学习的计算环境,在没有 TEE 的时候,通常采用无可信第三方情况下的安全多方计算(Secure Multi-party Computing,MPC)方案。MPC 是一套纯软件解决方案,主要通过加密算法保障数据安全。MPC 的实现大致可归为两类:一类是基于噪声的,另一类是不基于噪声的。两大计算环境如下:

(1)基于噪声的安全计算方法

​ 这类方法的主要代表是差分隐私(Differential Privacy),其主要思想是用噪声对计算过程进行干扰,其核心目的是隐藏模型参数等数据信息,进而使参与者无法根据得到的结果反推出原始数据。基于噪声的安全计算方法,由于可以只生成服从特定分布的随机数,因此计算效率较高。不过,这也会导致最后的输出结果不够准确,特别是对于复杂的计算任务,其结果会与无噪声的结果相差很大而无法使用。

(2)非噪声的安全计算方法

​ 这一类方法主要包括茫然传输、混淆电路、同态加密和密钥分享。这些方法一般在源头上就对数据进行加密或编码,计算的操作方看到的都是密文,因此只要满足特定的假设条件,这类方法在计算过程中是不会泄露信息的。相比于基于噪声的方法,非噪声的安全计算方法的优点是不对计算过程加干扰,因此我们最终得到的是准确值,且有密码学理论加持,安全性有保障;缺点则是由于使用了很多密码学方法,整个过程中无论是计算量还是通信量都非常庞大,对于一些复杂的任务,短时间内可能无法完成。

image-20230329111337129

​ 联邦学习强调将数据一开始就保存在参与方本地,并且在训练过程中加入隐私保护技术,拥有更好的隐私保护特性。各参与方的数据一直保存在本地,在建模过程中,各方的数据库依然独立存在,而联合训练时进行的参数交互也是经过加密的,各方通信时采用严格的加密算法,难以泄露原始数据的相关信息。此外,联邦学习技术可使分布式训练获得的模型效果与传统中心式训练效果相差无几,训练出的全局模型几乎是无损的,各参与方能够共同获益。

​ 联邦学习可用于在海量数据集下的模型训练,实现部门、企业及组织之间的联动。例如,在智慧金融领域中,可以根据多方数据建立更准确的业务模型,从而实现合理定价、定向业务推广、企业风控评定等;在智慧城市中,实现各政府机构之间、企业与政府之间的联合,实现更准确的实时交通预测,更简化的机关办事步骤,更高效的信息内容查询,更全面的安全防控检测等;在智慧医疗中,联邦学习可以综合各医院之间的数据,提高医疗影像诊断的准确性,预警病人的身体情况等。当然,未来它将覆盖更广阔的应用场景。

image-20230325110253325


10月份新开了一个GitHub账号,里面已放了一些密码学,隐私计算电子书资料了,之后会整理一些我做过的、或是我觉得不错的论文复现、代码项目也放上去,欢迎一起交流!Ataraxia-github

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.hqwc.cn/news/321599.html

如若内容造成侵权/违法违规/事实不符,请联系编程知识网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring——Spring IOC(2)

1.Spring中的工厂类 1.1 ApplicationContext ApplicationContext的实现类,如下图: ClassPathXmlApplicationContext:加载类路径下 Spring 的配置文件FileSystemXmlApplicationContext:加载本地磁盘下 Spring 的配置文件 1.2 B…

excel公式名称管理器

1.问题 在日常使用excel的时候,发布一个表格文件,需要限制表格的某列或某行只能从我们提供的选项中选择,自己随便填写视为无效,如下图所示,上午的行程安排只能从"在岗"、"出差"、"病假"…

【BIAI】Lecture2-Visual system

Lecture 2 - Visual System 专业术语 central nervous system(CNS) 中枢神经系统 pupil 瞳孔 iris 虹膜 cornea 角膜 retina 视网膜 fovea 中央凹 或 黄斑区 kens 晶状体 optic nerve 视神经 Bipolar cells 双极细胞 Ganglion cells 神经节细胞 rods 杆状细胞 cones 锥状细胞 …

计算机创新协会冬令营——暴力枚举题目04

说句实话,单纯的暴力枚举题目太难找了┭┮﹏┭┮,接招吧~~ 题目 2094. 找出 3 位偶数 - 力扣(LeetCode) 给你一个整数数组 digits ,其中每个元素是一个数字(0 - 9)。数组中可能存在重复元素。…

入行IC,该如何规划学习和成长路线?

不同学历背景的同学会有不同的道路选择。 微电子/集成电路专业的科班生,已经拥有了理论知识基础,不需要再额外学习这一部分。所以精力主要聚焦在流片项目和集创赛一类的赛事上,重点在于如何拿到更好的Offer。 而电子大类以及其他相关专业的…

【LeetCode-剑指offer】--19.验证回文串II

19.验证回文串II 方法:双指针 首先考虑如果不允许删除字符,如何判断一个字符串是否是回文串。常见的做法是使用双指针。定义左右指针,初始时分别指向字符串的第一个字符和最后一个字符,每次判断左右指针指向的字符是否相同&#…

机器学习原理到Python代码实现之LinearRegression

Linear Regression 线性回归模型 该文章作为机器学习的第一篇文章,主要介绍线性回归模型的原理和实现方法。 更多相关工作请参考:Github 算法介绍 线性回归模型是一种常见的机器学习模型,用于预测一个连续的目标变量(也称为响应变…

对话惠买集团董事长兼CEO杜瑞勇:直播电商粗放时代结束,如何用AI+XR打造精细化的智慧直播生态?

“ 未来将是专业选手精细化运营的智慧直播时代。“ 整理 | 梦婕 编辑 | 渔舟 出品|极新&北京电子商务协会 直播电商在经过爆发式增长后,从业者不断涌入,竞争日趋激烈,行业发展必然将会进入到一个缓慢增长阶段。直播…

【PCB专题】Allegro封装更新焊盘

在PCB封装的绘制中,有时会出现需要更新焊盘的情况。比如在制作封装的过程中发现焊盘做的不对而使用PAD_Designer重新更新了焊盘。 那在PCB中如何更新已经修改过的焊盘呢? 打开封装,选择Tools->Padstack->Refresh... 选择Refresh all …

52、全连接 - 特征与样本空间的对应关系

上一节说到经过全连接层之后,神经网络学习到的特征,会从隐层特征空间逐步映射到样本空间,这主要是由于全连接层可以融合全局的特征。 在经过全连接层之后,在 ResNet50 这个神经网络中会输出1000个特征的得分值,这1000个特征的得分值,便可以对应到图像的分类。 怎么对应…

LeetCode 2397. 被列覆盖的最多行数:二进制枚举

【LetMeFly】2397.被列覆盖的最多行数:二进制枚举 力扣题目链接:https://leetcode.cn/problems/maximum-rows-covered-by-columns/ 给你一个下标从 0 开始的 m x n 二进制矩阵 mat 和一个整数 cols ,表示你需要选出的列数。 如果一行中&am…

大数据 MapReduce是什么?

在Hadoop问世之前,其实已经有了分布式计算,只是那个时候的分布式计算都是专用的系统,只能专门处理某一类计算,比如进行大规模数据的排序。 很显然,这样的系统无法复用到其他的大数据计算场景,每一种应用都…