7月27日,由中国互联网协会指导、微博和新浪新闻主办的人工智能领域峰会——2022新智者大会在线上召开。在主旨演讲中,加拿大工程院院士、加拿大皇家科学院院士,香港科技大学讲席教授杨强分享了他在可信联邦学习领域的研究。
2022新智者大会-杨强院士做主题演讲
以下为杨强教授演讲实录,内容经编辑略有删减:
大家好,很高兴跟大家讨论可信联邦学习,这是我今天要讲座的主题。
首先,我们来看一下今天的人工智能面临很多挑战,其中一个瓶颈就是人工智能还过度地依赖中心化的数据。
我们知道中心化的数据在过去一段时间激励了人工智能的发展,因为有很多好处,包括样本多,样本的质量好,特征也足够的多和好,并且处理起来方便。像今天的大模型,像BERT、GPT-3、悟道等等,都是基于中心化的数据来做的,但是我们真实世界不是这样的,真实世界的数据是多元的,数据分布在各地,并且每一个数据源有不同的属主,他的利益也不同的,数据的格式,数据的质量,数据特征也是异构的。
那么随着时间推移,数据也在发生变化,同时有很多额外的要求,比方说我们要保护用户隐私,我们要尊重法律的边界,我们要保证我们的过程能够被监管和审计等等。
所以真实的世界有很多重要的要求,在中心化的数据里面没有体现。
同时国内外的数据监管又趋严,比方说我们在国外熟知的是《通用数据保护法案(GDPR)》,保护个人对数据的拥有权和对模型里面所用数据的所有权。
美国也有相应的加州消费者隐私法案,那么在我们国内,尤其是去年,我们有三个重要的立法,一个是《数据安全法》,一个是《个人信息保护法》,还有就是《网络安全法》。
那么这些加在一起,就为我们数据的流通和数据要素的使用提出了一个挑战,这也是我们希望能够通过技术手段结合法律和行政手段一起来解决的问题。
那么,我们从技术上来说,我们要解决的问题相当于“鱼和熊掌都要兼得”,也就是说我们既要计算结果准确,又要这个过程是安全的。因此我们就引入数据可用不可见这样的概念,就是在数据里面,有一部分数据是可用的,有一部分是不可用的,那么可用和不可用之间是法律来定的边界。
那在可用的数据里,可见和不可见,又是法律和利益来定的边界,那么哪些数据可用,同时又不可让其他参与方看见,同时你们要联合起来计算一个结果,那么就属于隐私计算的范畴了。那么在范畴里有几个不同的大的研究方向,一个叫做安全多方计算,一个叫做差分隐私,一个叫做安全硬件执行环境,还有一个叫做联邦学习。
那么我们在做这几个方面合作的时候,数据持有方、使用方也分别采用不同的角色,比方说甲方的角色就是数据的使用方,包括金融机构,包括医疗机构,还有政务部门。
那么还有乙方就是数据的拥有方,比方说,有一些特殊的行业数据,一些政府数据,还有一些是像医疗,政务等等,那还有就是技术的提供方,有时候技术的提供方就是甲方,有时候技术提供方就是乙方,也有单独的丙方作为技术提供方,叫隐私计算的服务机构。
那么隐私计算,作为目标来讲,就是数据可用而不可见。尤其是在联合建模,建人工智能模型的时候,不仅原始数据不可以让对方看见,同时我们在做模型的训练和模型的使用的时候,我们也不希望模型的关键参数被对方看见,这个也是隐私计算和联邦学习的共同目的。
那么我们这么多年的发展也形成了一个很大的工具包,这个里面包括差分隐私,可信执行环境,纵向横向的联邦学习,联邦迁移学习,同态加密,还有安全多方计算的各个维度,包括秘密共享,混淆电路,不经意传输,零知识证明等等。
那么我们看隐私计算,技术的发展历程,也是经历了不同的阶段,首先从理论的角度来说,安全多方计算最先得到了发展,他的特点是安全可证明,但是如果全程、全生命周期都使用就很难来建立大模型,那么当数据库大量的多方查询发生了以后,就有差分隐私出现。
但是差分隐私,同时对建模非常的不友好,因为它会使模型的效果降低,硬件厂商推出了集中加密计算,像TEE,但也会使各方的数据一定要出本地,就增加了安全风险,但是它的一个好处是特别能支持这种集中计算,像云计算。那随着AI的发展,从2016年以后,多方分布式的,同时安全可信的联合模型计算就被提出来,2016年谷歌提出了横向联邦学习。
2018年,我们中国的学者提出了纵向联邦学习和联邦迁移学习。
今年,我们又提出可信联邦学习,包括知识产权保护。
联邦学习的目的是利用多方本地的数据联合计算一个模型,并且联合使用模型。我们要求是模型不泄露任何本地的数据,同时,本地的数据又不出各自的本地。在此过程中,我们模型同时能够得到高效的成长,就像我们率领一只羊能够去拜访各地的草场,能够让羊成长,同时草料不出农场。
我们特别要强调的是,原始数据和模型的私密数据都不动和不可见,也就是说,我们这只羊在访问一个草场,他离开的时候,他也不带走任何草场的隐私,泄露给其他的参与方。
那么隐私计算的技术和联邦学习的算法,应该说来自很多很多家的努力,包括同态加密,包括刚才所说的安全多方计算,还有分布式的机器学习,各种机器学习算法,包括横向纵向的联邦学习,包括利用MPC和同态加密的方式来做这种PSI,包括优化算法和博弈论的算法。
那么这个近年来有很多不同的发展。那么我刚才多次提到谷歌提出横向联邦学习,它的大意是当我们有多个终端设备,各自拥有一部分数据,大家如何来联合更新一个本地模型,同时能够计算一个通用模型,那么假设我们有一个服务器来做一个coordinator的时候,我们就可以把各自的模型,本地模型进行加密,并且把加密的package传输给服务器。
服务器在加密的状态下可以进行各种统计计算,可以计算出一个加密的通用模型,这个通用模型又可以在加密的状态传输到各地的本地去更新本地的模型,这个过程叫做横向联邦。
原因是因为它相当于对一个数据表格进行用户间的,样本间的切割。那么每一个样本模块都分布到一个不同的终端设备上,纵向联邦是由于企业间的合作需求所引发的,也就是说,当我们每一个企业有不同的特征,这个时候我们可以考虑企业间的样本有重合,但是他们的特征却没有重合,在这种状态下,我们可以让两边联合建模,就像右边图所示。
在这个过程中,我们需要更新沟通一些模型的参数,比方说梯度,我们也要强调,这个梯度的沟通一定要是在加密状态下进行的。同时我们还考虑到生态的建设,数据生态,那么这个时候就要建立一个很好的机制,就是数据定价,模型定价,模型贡献度的决策和计算。这个机制可以通过一个博弈论和信息论来进行。
多方的参与,会不会有安全的隐患?人工智能本身是可以被攻击的,我们知道,一个模型有一个训练过程,也有一个使用过程,在训练过程和使用过程当中,都有一些可能的关键节点,是有可能被不谋好意者攻击的。比方说某一个参与方可以推断对方的训练数据,那么这个就属于一种半诚实的攻击,还有就是叫拜占庭攻击,就是一个参与方,他参与的一个目标就是来损害模型的质量。还有就是在模型的使用推理的时候进行攻击来欺骗模型,以达到某种个人的目的。
因此,我们在联邦学习设计的时候,就特别的有必要来设计一个对抗攻击的一个算法,那么攻击的例子,叫做半诚实攻击。比方说在共同建立一个计算机人脸识别模型的时候,一个参与方可以根据双方沟通的梯度来反猜对方的原始人脸数据。
在MIT的一个工作当中,叫做深度泄漏攻击,他两边模型的交流用的是梯度的交流,并且对梯度进行加噪音的这样的一种梯度保护,但是实践表明,如果噪音加的不够多,那么就会使得模型的总体安全性下降。
其实不仅仅有这种半诚实的攻击,还可能有其他的攻击,包括外在和内在的攻击,恶意的攻击,训练和推理时候的攻击。
那么我们提出可信联邦学习就是要增大攻击方的成本,使之大于攻击所获得的收益,那么这样就可以劝退攻击方,使得他无利可图,所以我们就说,如果我们要保障模型的安全,我们就需要来制定这个方案,我们首先要有一个威胁模型,我们要知道模型来自什么地方,模型攻击的对象是什么,模型攻击的模型是什么,还有就是我们采取哪些保护措施,当这些变量定下来以后,我们就可以对整个的保护机制来定一个安全等级,这个也是我们建立标准的一个基础。
所以可信联邦学习,是在联邦学习分布式联合建模的基础上,要加入安全可信的机制,同时,又能够保证整个的模型是高效可用,可管理,可审计,并且是普惠的。我们刚才所说的半诚实攻击,就是可以用可信联邦学习来增大攻击者成本的一个例子。
我们最近也做出一个理论的结果,隐私计算是要满足一个叫所谓的“no free lunch”,就是“没有免费午餐”的这样的一个定理,如果我们要安全和效能全部都提到100%最高是不可能的,因此安全和效能一定要做一个非常巧妙的平衡,使得我们既安全又高效。那么这样就是对框架算法设计者的一个考验,这个考验也取决于我们要建立一个标准,在标准之下,我们用一些标准来建立我们的联邦学习框架,就可以保证既安全又高效。
这就好像我们盖房子是用一些标准件来盖的,虽然每一个标准件都很安全,但是整个房子的安全是取决于我们是不是满足某种安全标准。
如果我们有这样的一种共同的安全机制来帮助我们,那么城市基建的速度就会大为提升,因此,联邦学习这种新基建,标准化相比于定制化系统的建立,效率就会大为的提升。
比方说我们可以用博弈论来设计这种攻防的机制,中间我们看到一个矩阵,这个矩阵就是攻击者和防御者他们采取不同的策略的时候,所获得最后的结果。
我们要问的问题,是什么条件下攻击者不愿意发起攻击,那么最后发现如果我们有一个有效的沟通机制,使得攻击者能够明白我们一些防御的措施,就可以阻止攻击者,这也是我们在设计算法的时候所需要采纳的一个方式。
像左边的这个方式,我们有了一个安全的机制,我们可以对全世界公布一些安全措施,使得攻击者可以望而止步。
那么我们的措施也做了各种的实验,这里的绿色的区域,在图里面。
一个是安全防护,一个是效果效率。
在这两个方面,如何能够得到一个最佳的平衡,我们如果系统整个的参数是调到绿色的区域,我们就能保证这种平衡和这种安全和效率的平衡得到满足。
刚才所说的这种系统的设计,也可以有效地用在这种恶意攻击的防御上,比方说拜占庭攻击,就像我们图里面,我们有众多的参与者,每一个小的绿色模块都是一个参与者,其中有两个是坏人,并且他们可以参与一个共谋机制。
我们就可以设计一种机制,能够防止他们在共谋的状态下,非常难以防御的状态下,有效地攻击我们的服务器。
那么我们主要采取的方法是一个图计算,机器学习的功能,使得我们能够区分这种恶意的共谋组与正常的合作组的合作特性,使得我们能够在以图分解的形式,把这种共谋的坏人的小组给孤立出来,并且把他们剔除出去。
实验表明,这样的一个结果,能够保证系统安全可信、可靠地运行。
第二个,可信联邦学习,要保证我们模型版权是被保护的,整个过程是被审计的,是透明的,可解释的。那么版权保护也就是说我们的模型如果有一个输出,也是大家多方共同参与建设一个模型,真正的参与方都应该有他们自己的一个审计的烙印。我们称这种烙印叫做“模型水印”。当我们一个模型有10个参与方,但是真正参与贡献的只有3个参与方,其他7个都是打酱油的,在这种情况下,通过3个参与方的水印,我们就可以清楚的知道,这3个参与者才是对模型真正的贡献者。这个机制也可以帮助我们做数据的确权和数据的定价,因为我们知道,这3个参与者应该得到最大的收益。
如何能够把水印放到模型里面?在多方建模的过程当中,训练当中就在进行。我们设计了在深度学习的多层神经网络的状态下,能够秘密地把水印植入到模型里面,同时满足以下三个方面:
第一,模型的效率和效果都不被受影响;
第二,我们植入的水印是秘密的,很难被其他的恶意参与者给剔除掉;
第三,通过水印我们可以做模型和数据的确权。
比方说,对于深度学习模型,我们有这个工具,能够确保最大水印的维度,保证不同的参与者,他们的水印不互相影响,并且保证水印不影响模型的效果,同时,我们有一个检测机制,当一个模型被购买来的时候,我们能够检测模型真正的拥有者是谁,它的源头是哪些,他的数据来自哪些参与者的数据,也就是能够给一个全面的审计结构。
联邦学习因为是多方参与的,因此离不开一个标准的建设,那么我们也是积极的领衔建立了相关标准,像IEEE在去年三月份就发布了全球第一个联邦学习的国际标准。
信通院也发布了团体标准,现在正在建立国家标准,我们也建立了世界上首个隐私计算的联邦学习开源社区,社区叫FATE。那么现在也是开源开放和数字化转型的一个有力工具,也是有很多很多的工程师和参与者贡献的结果。
中国信通院的调查显示,55%的国内隐私计算产品是基于或参考了开源项目,其中以FATE开源项目为主。
可信联邦学习虽然是一个新的技术,但是它的案例却非常快速的积累起来。
在互联网金融的服务场景,在这个场景,有很多的机器人,比方说有KYC,就是安全反欺诈的机器人,包括人脸识别,语音识别。还有服务机器人,还有坐席的培训和审计,客服质量检测机器人,这些机器人他们的训练和更新都使用了联邦学习,因为数据来自很多的数据源。
在医疗领域,多个医院和医疗机构可以利用各自的数据,可以形成一个横向或者纵向联邦可以建立一个共同的模型,共同建的模型可以做各种医疗诊断,可以做各种生物学的科学研究,可以为用户提供更好的个性化医疗方案。
在广告营销场景,联邦学习也可以联合广告方和平台方,甚至可以联合多个数据源来做更好的新闻推荐、产品推荐等,推荐更个性化并且能够保证用户隐私不被泄露。
我们也积极地建立这样的生态,一个例子是我们建立了一个叫开放群岛的开源社区,开放群岛是由深圳数据交易所联合国家智库,国家单位,大型金融机构,高校,大型互联网公司等50家机构建立起来的一个国际化的自主可控的隐私计算的开源社区,能够推动互联互通,数据要素流通,数字化转型有效的发展。
可信联邦也有一个特性,就是决策过程应该是可解释的。可解释人工智能也成为新一代人工智能的一个特征,最近我们也出版了一本书叫做《可解释人工智能导论》,我们不管在开源软件上,在学术研究上都积极的正在推动可解释的联邦学习。力图把联邦学习的决策机制解释给不同的角色的听众,包括用户,包括监管,也包括工程师和和数据的使用者。
这里举的一个医疗的例子,就是对于医疗欺诈的检测,可以对病人和医生分别给出不同的解释。
我的讲座到此结束,谢谢大家聆听。
<结束>
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
文章投诉热线:156 0057 2229 投诉邮箱:29132 36@qq.com