美林数据技术专家团队 | 隐私计算带动数据安全应用
2021-08-06 19:04:17
次
你有没有听到这样的事情:经常上热搜的“大数据杀熟”、手机好像在监听消费者的喜好、外卖小哥被困在算法里停不下来……
仿佛有一双眼睛在无时无刻的盯着我们的一举一动,其实这些都是隐私泄露。不管是对个人也好,对企业也好,泄露隐私都会让我们感到毛骨悚然。
近年来,数据安全事件频繁发生,数据安全威胁日益严峻。而这一切的根本原因在于,数据所带来的巨大潜在利益,促使不法之徒肆无忌惮的收集和使用我们的隐私数据。
2021年9月起,正式施行的《中华人民共和国数据安全法》就是为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益而制定的专项法律。
数据作为数字经济下最重要的生产要素,在保证数据安全的同时,更要发展数据。该如何兼顾发展与安全,平衡效益与风险,在保障数据安全的前提下,挖掘数据价值?
数据可用不可见
由于竞争及政策等原因,“数据孤岛”现象明显
众多企业在开展业务的过程中积累了大量的数据,但由于物理和逻辑上的孤立性、合规监管以及隐私保护等方面的原因,海量数据被独立存储在不同区域、企业中,彼此间互不相通,形成数据孤岛,限制了数据价值的释放。
数据隐私问题日益严峻,用户信任度逐步下降
随着各类技术的不断发展,基于位置跟踪、行为偏好记录、智能推荐的各种定向精准化服务在给我们提供诸多便利的同时,也产生了越来越多的数据隐私问题。2018年,Google被爆出50万Google+账户资料外泄,先后为此付出总计高达90亿美元的罚款。频发的数据泄露问题削弱了对科技公司隐私保护能力的信任。
隐私计算助力数据融合,释放数据价值
随着竞争形势的日益严峻,为了提高自身竞争力,越来越多的企业希望能够与产业上下游公司、政府等数据主体进行数据共享,实现深入合作。针对“数据孤岛”问题,一种叫做“数据可用不可见“的合作新模式被提了出来。借助以联邦学习、多方安全计算等为代表的隐私计算技术,数据合作主体可以实现原始数据不出库,仅数据“价值”和“知识”出库,从而完成数据融合的目标。
例如疫情期间,通过联邦学习平台可以进行协作建模,在原始数据“足不出库”的前提下,完成了对小微企业的精准画像,实现了企业信用评估、银行授信以及政府贴息全闭环流程。
隐私计算技术实现“数据可用不可见”
在大数据、人工智能、“互联网+”背景下,“个人信息保护”重要性进一步提升。隐私计算技术帮助数据合作方不需要得到真实的数据就可以实现想要的作用,从而实现了不共享数据,却又共享数据的目的。
数字经济时代来临,数据要素市场化配置逐渐上升为国家政策。通过政策的支持和技术的完善,隐私计算最终能够完美实现数据的“可用不可见”,达到数据安全的保护目的。
利刃出鞘:隐私计算
隐私计算技术为实现“数据可用不可见”提供了解决方案。具体什么是隐私计算?隐私计算是在实现保护数据拥有者的权益安全及个人隐私的前提下,实现数据的流通及深度挖掘数据价值的一种重要方法。
隐私计算通常一种由两个或多个参与方联合计算的技术和系统,参与方在不泄露各自数据的前提下,通过协作对他们的数据进行联合机器学习和联合分析。参与方既可以是同一机构的不同部门,也可以是不同的机构。
隐私计算技术主要包括基于密码学的多方安全计算、基于可信硬件的可信执行环境以及新兴的联邦学习技术。
√ 多方安全计算主要适用于统计分析、判断决策、查询
√ 可信计算需要硬件厂商授权,适用于数据保护要求较低的应用场景
√ 联邦学习则适用于机器学习、数据建模和数据预测分析
其中联邦学习作为后起之秀,在数据安全中得到了广泛的探索与发展。联邦学习的本质上是一种分布式的机器学习技术,各个参与者不需要把数据整体移动到一个可信计算环境中,而是在本地使用本地的数据训练一个本地的模型,并通过场景使用半同态加密、秘密分享等隐私计算技术的方式来同步模型参数,从而进行模型的迭代训练。从而做到数据可用不可见,数据不动模型动,实现极高的安全性,合规性。
他山之石:应用场景
各领域均存在数据合规流通的需求,隐私计算用武之地众多。尽管隐私计算行业尚处早期,但已在人工智能、金融、医疗等许多场景中实现应用落地。
金融领域:构建反欺诈模型,打通信用信息流通
金融交易线上业务占比不断扩大,金融联合反欺诈势在必行。单一来源数据构建的反欺诈模型效果较差,因此各金融机构具有很强的反欺诈合作意愿。但在具体合作过程中又往往担心用户的隐私数据和机构的商业机密遭到泄露,造成重大不利影响。金融数据涉及商业机密,“供应链金融”信用信息流通受阻,金融反欺诈也难以得到有效解决。
解决思路:各机构可基于隐私计算技术,利用多维度数据建立联合金融反欺诈模型,共享黑名单。数据可以没有离开各自本地的情况下,融合多方特征使得反欺诈模型达到最佳效果。“区块链+隐私计算”的解决方案能够将企业的信息形成不可篡改的数据记录,并实现实时信息共享。其他参与者无法获知具体经营信息,但可以利用其进行信用评估计算。
医疗领域:提升数据挖掘效率,实现资源多方共享
医院的医疗数据涉及患者隐私,数据壁垒难以打破。一方面,我国医院体系内部医疗数据缺乏结构化规划;另一方面,医院体系外部机构从医院获取数据的成本越来越高,造成大量医疗数据资源浪费,严重阻碍了科研开展及医疗行业的发展。如何在防止“信息泄露”的基础上,实现多方医疗数据共享,提高医疗数据挖掘效率,是当前医疗领域面临的巨大挑战。
解决思路:在利用数据脱敏等技术保证各医疗机构数据不被泄露的基础上,由政府牵头,构建安全数据开发平台,获得授权的使用者可在数据平台上通过第三方应用或者自己开发的程序对原始数据进行挖掘,最后由平台输出数据的使用价值和结果,大幅度的提升医疗数据的利用价值,促进科研开展和医疗行业发展。
可以攻玉:美林能力
美林数据多年在能源行业有着丰富的数据治理及挖掘经验,结合强大的云边能力,在隐私计算技术上深耕挖掘,通过云边协同等新型技术赋能,研究隐私计算技术解决多领域数据安全问题。
能源领域:构建能源反窃模型,保障数据共享安全
能源行业作为关乎国计民生的基础行业,具有巨大的数据挖掘价值,但也由于其具备天然的敏感性,此类数据直接汇聚到统一的平台非常困难。水、电、气、热等能源数据天然形成了数据孤岛,数据无法贯通严重阻碍了能源AI应用落地。如何打破数据壁垒,解决“最后一公里”问题?
解决思路:以联邦学习、安全多方计算等数据安全与隐私保护技术为核心的分布式计算平台,产品针对机器学习算法进行定制化的隐私保护改造,保证数据不出本地即可完成模型训练,最大化各个合作企业在数据安全的基础上的数据价值,很好地解决了业界数据孤岛的难题。
税务领域:推动涉税数据与电力数据共享合作
税收数据和电力数据在宏观上能有效反映经济运行现状及变动趋势,在微观上能够反映社会主体经营状况,在服务经济分析、精准施政等方面,具备覆盖面广、数据质量好、采集频率高、颗粒度细等特点。然而,税务与电力数据因数据隐私泄露的问题,对部分资源在涉电及涉税数据的相关分析中出现阻碍。
解决思路:借助隐私计算,共享并融合税务与电力数据,提升税务与电力数据的含金量,实现隐私保护下的高质量数据协作。同时通过隐私计算平台,促进税务和电力的数据协作,实现政企数据融合应用。
引玉之砖:未来发展
隐私计算技术日益完善,未来有望迈入快车道
2020年10月20日,隐私计算入选Gartner2021年九大重要科技趋势。根据Gartner预测,2025年将有一半的大型企业机构在不受信任的环境和多方数据分析用例中使用隐私增强计算处理数据,隐私计算技术将在2-5年内走向成熟。
大鹏一日同风起,扶摇直上九万里。美林数据多年来深耕行业应用,不断沉淀总结技术与业务的最佳结合点,在大数据与人工智能时代积累了丰富的行业级算法库及强大的算法能力。通过云边等新型技术赋能,积极发展隐私计算能力,美林数据正昂首挺胸,践行以客户为中心,为用户提供安全可靠的大数据技术服务,为传统企业数字化转型提供美林力量!