当前,数据成为推动各行业降本增效的核心生产要素。隐私计算通过实现“数据可用不可见”,为数据要素安全流通提供技术最优解。随着市场需求增加、政策持续牵引,隐私计算迎来爆发态势,相关统计表明未来可触达千亿级的市场规模。近年来,隐私计算技术在金融、医疗、政务等多个场景开始落地,但是大规模商业化仍然面临诸多挑战。基于此背景,数字金融网、PCview隐私计算研究院专访了DataTrust负责人张子良及其团队成员,探讨了隐私计算的商业价值,工程化实践,以及未来发展方向。
助力数智化转型,为企业数据安全流通提供解决方案
张子良介绍,对于企业来说,不管是业务发展,还是数字化转型,数据都是决策与运营的基础和生产要素。数据在流通中存在安全、隐私泄露等问题,“隐私计算作为助力数据安全流通共享的一种技术手段,只有转化为可以感知、理解的产品才能更好地发挥价值。”DataTrust定位是以隐私计算为技术底座,为企业提供数据安全流通解决方案。
DataTrust的平台功能
DataTrust的优势,来自阿里积累的技术实力,在算法的先进性和大数据处理能力上处于行业领先水平。DataTrust于2019年成立,早期服务于阿里内部系统,依托阿里底层技术能力和大数据应用场景实践,在2021年正式对外服务。DataTrust主攻方向为多方安全计算和联邦学习,目前支持百亿级别的PSI(小时级完成)、支持亿级别的SQL联合分析,处于行业领先水平。
其次是在业务场景上丰富的实践。截止目前,DataTrust隐私计算解决方案已经实现在数十家行业客户中落地应用,助力金融、营销、政务、零售等领域客户显著地提升运营效率,为客户在数智化转型过程中的数据安全流通助力。
最后是来自数据和场景的闭环。张子良认为,隐私计算公司仅仅凭借技术和产品很难打造一个竞争闭环,必须借助数据和场景加持才能获得持续地发展。DataTrust出身于阿里,拥有数据源服务和多层次场景应用案例,组成自己独特的优势。当前隐私计算处于一个技术相对成熟,但商业化早期孵化的阶段。虽然在金融领域出现了一些成熟商业模式,但在政务、医疗、零售领域还有待观察。从长远来看,当数据成为新型生产要素,隐私计算必然会成为一种社会基础设施。如果把数据比作电,隐私计算就如同电网一般将数据安全输送给应用方,从而实现电能到万家灯火的转变。具体到商业化而言,企业更多考虑的是如何合法合规使用自己的数据,或者共享外部数据推动业务增长,DataTrust解决的就是这样的问题。
以客户为中心,解决隐私计算工程化之殇
据DataTrust工程总架构师梁爱平介绍,DataTrust产品定位是通用的隐私计算产品,因此DataTrust工程技术架构同时支持多种隐私计算技术,通过模块插件化的设计思路,适用于多种异构的计算、存储、网络环境,支持云上部署、独立部署等输出形态。
DataTrust的工程技术架构图
DataTrust早期服务于阿里内部,所以整个功能系统是基于阿里的工具为原型,比如大数据计算系统采用的是MaxCompute(内部称ODPS),满足大规模数据处理的性能要求。逐步对外服务以后,DataTrust也会尊重客户的选择,适应客户的需求,优先考虑客户的环境资源来完成计算,帮助企业降低部署成本。
DataTrust的工程化思考涵盖五个层面,包括稳定性、兼容性、可维护行、性能和成本、客户交付。梁爱平总结,“所有的客户需求可以总结成一句话,用最快的速度、最便宜的价格、最少的人力付出,交付一个安全、稳定、可运行的产品。”其中,安全、稳定、可运行是普遍需求,具体落地更多地还是考虑数据传输、计算性能优化、复杂环境部署等问题。
数据传输层面。安全多方计算过程中会有大规模的数据传输需求,怎么让客户以最低的价格完成这种传输成为关键问题。DataTrust通过搭建传输平台来解决跨地域传输的问题。异地双方先各自上传数据到本地机房,跨区域传输则通过专属宽带,通过这样的设计整体降低客户宽带费用。
大规模计算层面。使用安全计算带来的计算复杂度会比全量在本地计算高出很多,通常会使用分布式集群计算解决问题,但是客户已经有了Hadoop的集群、 kerberos集群、或者ODBS集群,怎么又快又用客户的集群去完成大规模计算成为核心问题。安全计算协议本身是一个很抽象的过程,DataTrust工程团队通过把现有分布式方案完成分布式化,并且以插件形式放置在不同分布集群上,使客户仅使用已有的集群即可完成大规模的计算。
复杂环境部署层面。在服务银行等部分客户的时候,客户的网络环境需求是很复杂的。银行的数据存储、应用部署、外部连接区域都是独立的,其次是外部人员不能接触部署,第三是需要满足审计功能。DataTrust的解决方案是提供文档和安装包,支持部署脚本智能化,让客户自己的运维人员部署运营。接下来,通过持续优化,支持复杂网络环境部署,通过任务调度和数据传输的分离,实现审计的功能的需求。具体操作是在官网端口把流量分成两部分,一部分流量是用来完成协调计算任务调度,一部分用来完成数据传输。对于另一些客户来说,开放公网是很难的,很多厂家采取的是点对点模式来解决问题。DataTrust支持点对点模式,同时也支持公网模式,因为调度层和数据层分离,任务调度的内容可以放到了公网节点,方便客户访问;数据层则由抽象出的一个数据中转区域负责,专门存放数据。如此,数据的双方不需要开放任何端口,只需要访问公网就可以满足点对点模式、公网模式的需求。
梁爱平表示,工程化的难点在于速度和价格,复杂环境的部署,DataTrust的工程优势则在于编译和调度能力,通过原创的无量架构,既能完成状态机的逻辑调度,也能满足多方安全协议的调度。无量架构支持现有的基于OT、DH的PSI,基于MPC的联邦机器学习,甚至其他开源代码,包括已知理论库支持的所有安全多方协议的编排和调度。DataTrust的目标是在多方安全计算领域创造一种工业级的产品,因此未来也会考虑部分开源这些编译器,希望能够为安全多方这种分布式编译调度的工业化需求提供一些解决思路。
面向未来,打造轻量化、业务耦合、客户友好体验的产品
随着隐私计算市场从落地初期验证阶段进入到加速实施阶段,大规模应用一直面临诸多难题。从供给方角度来看,轻量化部署,大数据处理性能有待优化;从需求方角度来看,理解成本较高,安全、可信等问题依然存在。一个好的现象是,随着国家政策牵引,以及市场培育增加,客户的接受程度越来越高。
关于市场格局,张子良认为,当前隐私计算市场存在三类公司,包括初创公司,专业领域公司,互联网公司。所有的公司处于同水平的竞争,在技术能力、产品能力上尚未出现绝对领先优势的公司,但是市场竞争确实已经进入白热化阶段。隐私计算虽然提供了数据安全流通的最优解,但是也会导致原有业务流程断裂,企业不得不因此承担额外成本。DataTrust强调通过工程化思维去解决问题,力求在轻量化、业务耦合,客户体验方面寻找突破。
此外,从隐私计算的终局来看,其认为会有三种隐私计算公司可以取得长远发展。一是拥有数据和场景的加持,能够打造完整生态闭环的公司;二是能够把隐私计算能力做到普适化,轻量化的公司,比如隐私计算和云服务结合,通过组件达到开箱即用的目的;第三种是专业领域,比如在医疗或者国产化领域持续投入的公司。DataTrust天然拥有数据和场景的优势,目前在普适化和轻量化方向积极探索。
比如,DataTrust早期产品形态是混合云版本,通过在公有云上设置一个中心控制管控平台,客户可以自行部署隐私计算相关节点。实践发现客户对于云的形态有各种需求,所以就提出了light版本,双方互相布置隐私计算节点,不再依托于云提供服务。此外DataTrust在部署层面也支持多种部署方式,尽量降低对客户的干扰。最近也在探索把产品抽象出API,客户的业务系统可以通过API实现调用;在分布式计算系统上可以用UDF的方式实现。
对于未来发展规划,张子良表示,从内部来讲首先是加快人才梯队建设,引入更多专业领域的复合式人才,组成产学研结合的团队,与DataTrust的业务和产品紧密结合;其次是持续打磨产品,以实战为导向,对轻量化、安全性能、工程化加大投入。从外部来讲,一是积极推动相关标准制定,二是开源部分底层技术能力,降低客户理解难度,同时实现整个行业的协同发展。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。