本篇文章5151字,读完约13分钟

“这是最好的时代,也是最坏的时代。”

《双城记》中有这么一句话。

伴随新技术而来的新型欺诈手段不断滋生,层出不穷,金融欺诈风险不断升级。隐私计算技术在处理和分析计算数据的过程中,能保持数据不透明、不泄露、无法被计算方以及其他非授权方获取,已成为打破数据壁垒、释放数据价值的关键技术解决之道。

目前,它的应用前景受到了大型金融机构、科技公司、互联网巨头、政府部门等各行业的广泛关注。

百融云创致力于探索人工智能和大数据在金融领域,从联邦学习、隐私集合求交集等技术方向入手,结合大数据具体应用场景需求,搭建起了隐私保护计算平台Indra,为金融大数据应用过程中保障数据可用性和隐私性给出了创新解法。

一、隐私计算关键技术

数据的分析处理全生命周期可分为数据输入、计算、结果三个环节,当下市面上的隐私计算技术体系普遍依据这一原则进行构建。大体上,隐私计算包括差分隐私、同态加密、多方安全计算、零知识证明、可信执行环境、联邦学习等技术。

联邦学习

什么是联邦学习(Federated Learning, FL)?

在金融机构智能技术应用过程中,数据过度采集、非法共享、随意滥用的现象层出不穷。从此,隐私保护、数据安全被提到了前所未有的高度,在人工智能与数据之间架起安全桥梁的联邦学习技术应运而生。可以说,“联邦学习”是一种新的人工智能实现模式。

“联邦学习”增加了行业内可用数据的总量,能简单、合法和低成本地获取外部有效的数据信息,快速解决某些因数据量或数据维度不足而导致的困扰,并且不会造成合作机构间数据或商业机密的泄露。

那联邦学习怎么操作呢?

它是由两个或以上参与方共同参与,在保证各数据方的原始数据不出库的前提下,协作构建并使用机器学习模型。联邦学习能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习实际上是一个综合性的技术组合,底层融合了多种机器学习算法和隐私保护的算子,如安全多方计算的多种协议和差分隐私,都可以被用于联邦学习。

联邦学习的原理是通过构建一个计算网络,使客户可以在自己的终端通过使用本地数据对模型进行训练,并将模型的更新内容进行上传汇总,将不同终端的模型更新进行融合,以此优化预测模型,客户终端再将更新后的模型下载到本地,并不断重复这一过程。在整个过程中,终端数据始终存储在本地,来避免数据泄露的风险。

根据数据集的分布特点,联邦学习可分为横向联邦学习、纵向联邦学习与联邦迁移学习。百融云创Indra平台主要针对应用场景更丰富的纵向联邦学习,比如同一个地区的银行和电商,他们用户重叠较多;但是,由于银行记录的都是用户的收支行为与信用评级,而电商记录的是用户浏览与购买历史,因此用户特征重叠较少。

安全多方计算

数据已成为国家基础性战略资源、重要生产要素,对于推动经济高质量发展,助力国家治理体系和治理能力现代化具有重要作用。在此背景下,企业数据安全治理、数据安全保障、数据安全体系建设的重要性不断增强。

安全多方计算便应运而生。

为了了解安全多方计算,让我们先看一个场景例子。

小李认为他有某种遗传疾病,想验证自己的想法。正好他知道小刘有一个关于疾病的DNA模型的数据库。如果他把自己的DNA样品寄给小刘,那么小刘可以给出他的DNA的诊断结果。但是小李又不想别人知道,这是他的隐私。所以,他请求小刘帮忙诊断自己DNA的方式是不可行的,因为这样小刘就知道了他的DNA及相关私人信息。

也就是说,两个金融组织计划为了共同的利益决定互相合作一个项目。每个组织都想自己的需求获得满足。然而,他们的需求都是他们自己专有的数据,没人愿意透露给其他方,甚至是“信任”的第三方。

那么他们如何在保护数据私密性的前提下合作项目呢?

安全多方计算(Secure Multi-Party Computation,SMC)是解决一组互不信任的参与方之间保护隐私的协同计算问题,SMC要确保输入的独立性、计算的正确性、去中心化等特征,同时不泄露各输入值给参与计算的其他成员。主要是针对无可信第三方的情况下,如何安全地计算一个约定函数的问题,同时要求每个参与主体除了计算结果外不能得到其他实体任何的输入信息。安全多方计算在电子选举、电子投票、电子拍卖、秘密共享、门限签名等场景中有着重要的作用。

它是在保证多个参与方获得正确计算结果的同时,无法获得计算结果之外的任何信息,从而保证各方数据的安全和私密。安全多方计算技术包括秘密共享(secret sharing)、不经意传输(oblivious transfer)、混淆电路(garbled circuit)、隐私集合求交集(private set intersection)、隐私信息检索(privacy information retrieval)等关键计算协议。

安全多方计算的优势在于,各参与方对其所拥有的数据拥有绝对的控制权,保证基本数据和信息不会泄露。然而,目前安全多方计算技术包含复杂的密码学操作,计算开销较大,需要付出很大的性能代价。此外,针对特定问题和场景,还需要设计专用协议。另外,该技术的落地还受到网络带宽、延迟等因素制约。

因此,提升计算效率、降低实施方案设计复杂度、与此同时拓展技术落地场景,将是未来安全多方计算在产业应用的优化和发展方向。

二、解码百融云创Indra平台

隐私保护集合交集(Private Set Intersection PSI)计算属于安全多方计算领域的特定应用问题,不仅具有重要的理论意义,也具有很强的应用价值。

随着用户数据的隐私保护越来越受到重视,这一方向的研究更是符合人们日益强烈的在享受各类依赖个人信息的业务的便利性的同时,最大程度保护个人信息私密性的需要。

PSI拥有很多实际应用场景,目前Indra平台包含基于OT的PSI和联邦学习两大部分。



对于PSI,Indra平台采用基于OT和基于公钥两种形式。两种PSI算法分别适用于合作方数据集和客户数据集差不多大、合作方数据集远远大于客户数据集两种情形。Indra平台的PSI算法既适用于普通的求交集计算,也适用于联邦学习的训练和预测阶段。百融云创作为管理中心可以提供多方(不仅仅是两方)数据集合求交集。

Indra平台还将与区块链技术结合起来,为合作方提供数据确权服务,实现数据价值流转。同时区块链还可以为Indra平台提供公平、透明、合理的激励分配机制,克服安全多方计算内在的缺陷,充分调动合作方提供高质量数据、诚实参与计算的积极性。

平台架构图


整个Indra平台逻辑上分为管理中心、合作方、客户三大部分。

管理中心:百融云创是Indra平台的管理中心,负责用户管理、向客户展示合作方数据集列表、PSI和联邦学习任务调用,以及结果返回。百融云创既是数据中介机构(管理中心),也是数据提供方(合作方)。即使百融云创作为管理中心,百融云创和客户也无法拿到合作方的数据,充分保护合作方数据的安全。

合作方:大量数据的拥有者,可以将数据集的描述提供给管理中心,等待客户使用其数据,从数据中获取价值。

客户:根据自身需求,选择管理中心提供的数据集列表向管理中心发起PSI或联邦学习任务请求,同时向管理中心和合作方支付费用。



平台系统流程图



1.合作方将数据的ID进行Hash后上传合作数据集(PSI数据集、联邦学习数据集)到自己的服务器,并将合作数据集的相关描述发送给Indra平台管理中心;

2.Indra平台管理中心向客户展示可用的数据集;

3.客户选择合适的数据集,发起相应的任务(PSI任务、联邦学习训练任务、联邦学习预测任务);

4.Indra平台管理中心分配、调度任务,选择合适的功能模块;

5.合作方、管理中心、客户合作完成任务:

5.1当执行PSI任务时,管理中心综合各匹配结果,合并、生成最终匹配结果,并将结果保存、记账、下发,客户可以展示、下载、解析匹配结果;

5.2.当执行联邦学习训练任务时,管理中心产生所需的公私钥和中间计算结果的解密,合作方、客户联合训练模型,最终合作方和客户各自得到模型的一部分;

5.3.当执行联邦学习预测任务时,客户选择已有的模型和对应的合作方数据集,通过改进的PSI协议,获得预测结果。

三、Indra平台应用场景


Indra平台为合作方、客户之间提供了一种安全、高效的数据合作模式,各方在不泄露数据的情况下,仍然可以挖掘数据价值,确保数据使用的合规性。


1.黑名单匹配

在多头借贷名单、黑名单匹配中,客户往往会查询多家机构的数据集,以确定借款者是否在多头借贷名单或黑名单中。在这个过程中,最理想的状态是除了借贷机构用户集和黑名单共同的数据之外,其他任何信息都不会泄露。一种简单的方法是将各自数据都进行哈希运算,哈希值相同的就是共同的数据。但是这样做就会把哈希值暴露给对方,如果数据空间不是很大,很容易遭到暴力求解。即使通过一些手段增加数据空间,也会造成匹配率下降等问题。

Indra平台向客户集中展示多个合作方提供的多头借贷名单和黑名单,包括历史匹配率、被匹配次数、匹配效果等信息。客户根据这些信息自由选择想要匹配的多头借贷名单或黑名单。事后客户还可以在Indra平台上反馈数据集使用情况,以便其他客户更有针对性地选择合适的数据集。

2.在线预测


在使用联邦学习训练得到最终的模型,往往各参与方只掌握模型的一部分。使用模型时,仍然需要各方联合起来进行预测。作为客户的一方并不希望其他参与方知晓预测的用户ID。比如借贷机构和征信机构合作预测某个借款人的信用,借贷机构并不想让对方知道该借款人有借款需求,否则征信机构可以将借款人的信息提供给其他借贷机构,所以借贷机构希望在预测借款人信用的同时,并不会泄露借款人的信息。

在预测阶段同样可以使用Indra平台的PSI组件:参与各方计算各自模型的结果并和ID一一对应起来;客户在求得用户ID交集的同时也能获得该ID对应的各自模型的计算结果,从而可以计算出最终的预测结果。根据PSI的技术特点,在这个过程中,除了客户之外其他参与方(合作方)均不知道用户ID交集的信息,也就无法知道客户到底预测的是哪个用户ID。

此外,通过使用Indra平台的PSI组件,在不向合作方泄露用户ID的情况下,客户可以从合作方那儿获得该用户ID的其他信息,如历史借款次数、借款金额等。

3.联合建模


为了联合多方数据集训练模型,传统的方法是参与方在本地计算模型,然后将各自的模型提交给第三方,第三方根据这些模型合成一个新的模型。这样做可以保证各方数据隐私安全,但是第三方可以获得各方模型,往往模型本身也属于参与方的核心资产,并不希望泄露出去。同时,虽然各参与方的模型基于各自数据集,但是最终合成的模型并不是直接使用各方数据集,所以模型的效果没有直接使用数据训练模型的效果好。另一种方法是参与方各自拿出少量的数据放到一起进行模型训练。这样做仍然会有少量的数据泄露,而且由于只是少量数据,并不能得到最优的模型。

Indra平台在联合建模方面使用联邦学习技术,模型的训练直接使用各参与方的数据集,通过PSI、Paillier加密等密码学技术,保证数据均是在密文状态下进行训练。训练完成之后,参与方除了获得最终模型外,无法得到其他参与方的任何数据信息。

4.数据中介


和传统的数据超市不同,Indra平台只展示合作方数据集的相关描述,而不会真正拥有合作方的具体数据,解决数据孤岛困境,避免非法数据交易,实现数据价值。由于Indra平台可以充分保护合作方数据安全,合作方将自有数据集的相关信息(数据本身不出库),如数据量、字段、来源、用途等发布到Indra平台。Indra平台将合作方数据集、历史使用情况等信息集中展示给客户。客户可以根据数据集相关信息和自身需求,选择合适的数据集进行匹配、建模或预测等操作。Indra平台对数据集的使用情况、效果等信息进行统计,方便后续客户选择高质量的数据集,也能激励合作方提供更优质的数据。

“一定把金融、数据算法和对业务本身的理解三者合起来才能做好防范。”百融云创CEO张韶峰说道。

金融科技中对于数据的使用是一把双刃剑,它为金融业带来机遇的同时带来了新的挑战,金融业务数字化、网络化、智能化引发的数据爆发式增长,同时也对数据安全治理提出了更高的要求。

在未来的研发过程中,百融云创将更加注重产品研发环节中的隐私保护问题,不断更新和优化百融云创的金融科技服务质量,为客户提供更放心和满意的科技服务。百融云创会加大对隐私保护技术的研发和创新,始终引领金融行业的科技创新方向。


标题:百融云创Indra平台:探索联邦学习技术,处理数据隐私保护难题

地址:http://www.hongyupm.com/gjxw/20317.html