经济观察报 记者 胡群 随着5G、物联网、云计算、工业互联网等技术发展,数据量已然进入爆发增长期,如何在遵守更加严格、新的隐私保护条例前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者和实践者面临的首要挑战。
“倘若不能很好地解决这个问题,将会很可能导致新一轮的人工智能的寒冬。”微众银行首席人工智能官杨强称,在人工智能领域,隐私保护技术“联邦学习”作为一种分布式的机器学习新范式,具有“数据不动模型动,数据可用不可见”的核心特征,已成为推动人工智能产业应用深化、数据要素流通、数据价值释放的关键技术。
杨强还是香港科技大学计算机与工程系讲座教授和前系主任,AAAI-2021大会主席,国际人工智能联合会(IJCAI)理事会前主席,香港人工智能与机器人学会(HKSAIR)理事长,智能投研技术联盟(ITL)、开放群岛(OI)开源社区、联邦学习FATE开源社区主席,华为诺亚方舟实验室首任主任。他于2013年7月当选为国际人工智能协会(AAAI)院士,是第一位获此殊荣的华人,之后又于2016年5月当选为AAAI执行委员会委员,是首位AAAI华人执委。2017年8月他当选为国际人工智能联合会(ICAI,国际人工智能领域创立最早的顶级国际会议)理事会主席,是第一位担任ICAI理事会主席的华人科学家。
杨强所在的微众银行是国内首家提出“联邦学习”解决数据孤岛与数据隐私保护难题的机构,联邦学习为人工智能落地中数据孤岛与数据隐私保护难题提供了通用解决方案。
从实验室中走向工业化
杨强擅长机器学习和数据挖掘领域,是该方向的领军人物。2012年,杨强将主要精力转向大数据的产业化,与华为公司联合组建诺亚方舟实验室,并担任首席主任。
“人工智能有一个特点,就是离不开实际的应用场景。刚开始我一直在学校研究人工智能,再逐渐接触到华为、微众等企业。后来我逐渐感觉到,人工智能在特定的场景中仍遇到一些挑战。2018年时我已在微众银行担任独立董事,接触了很多微众的金融场景,感触特别深的是微众需要很多模型来支持各种金融方面的操作。这个场景刚好适合我,就选择了来到微众。”杨强称,机器学习的技术本身已经很成熟,只不过是从实验室中走向工业化。而联邦学习则是从零开始,全球都没有成功案例。
回溯最初,谷歌在2016年发表的论文中提出了联邦学习概念,从此联邦学习成为人工智能社区里一个非常活跃的研究领域。杨强团队在2018年提出系统化的联邦学习理论,2019年发布了FATE开源系统,2020年出版了首本联邦学习中英文专著《联邦学习》。经过多年的探索,目前微众银行新一代的联邦学习在理念和实践上已走在了全球前列。
早在2018年之前,人工智能已在很多领域开展应用,但训练人工智能应用模型所需要的数据量非常庞大。在很多领域中,人们发现满足这样规模的数据量是难以甚至无法达到的。尤为重要的是,人们对用户隐私和数据安全的关注度也在不断提高。用户开始更加关注他们的隐私信息是否未经自己许可,便被他人出于商业或其他目的而利用,甚至滥用。在此趋势下,包括中国在内的全球多地政府相继出台数据保护法律和法规,使得数据孤岛效应进一步显现。“在这样的法律环境下,收集和分享不同组织间的数据将会变得越来越困难。更加重要的是,某些高度敏感的数据(例如,金融交易数据和医疗健康数据等)的拥有者也会极力反对无限制地计算和使用这些数据。在这种情况下,数据拥有者只允许数据保存在自己手中,进而会形成各自孤立的数据孤岛。”杨强称,如何在更加严格的、新的隐私保护条例的前提下,解决数据碎片化和数据隔离的问题,是当前人工智能研究者和实践者面临的首要挑战。倘若不能很好解决这个问题,将会很可能导致新一轮的人工智能的寒冬。
联邦学习“奠基者”
“我们把联邦学习到今天的发展分为1.0阶段和2.0阶段。1.0阶段是从2018年开始的。”杨强称,按照数据集合维度相似性构成的特点,业界普遍将联邦学习分为横向联邦学习、纵向联邦学习。目前大部分手机等终端应用公司在使用横向联邦学习,而在其他领域,大概是70%-80%的应用,是使用由微众银行发展出来的纵向联邦学习。2019年发表的一篇纵向联邦学习概述论文,目前已有超过3000个引用,这在学术界是非常惊人的。
2022年12月14日,中国移动发布的《中国移动隐私计算应用白皮书2.0》显示,纵向联邦学习适用于各个参与方有大量的重叠样本,但其特征空间不同的情形。典型的案例是跨行业、跨机构的数据联合建模,如同一地区的银行和电信运营商,其用户重叠度高,数据维度差异大,通过纵向联邦学习可以在保护数据隐私的条件下构建满足各种需求的模型。
当有着相同特征的样本分布于不同的参与方时,在能够实现综合运用各方数据的同时,保证各方数据隐私的算法称为横向联邦学习。横向联邦学习的目的是要利用分布于各方的同构数据进行机器学习建模,其典型应用场景包括医疗数据建模、业务相似的同行业、不同用户的数据联合建模等。“现在联邦学习已经发展到2.0阶段。2.0阶段和1.0阶段的重大区别就是可信联邦学习。其本质是能够满足用户和监管等各方面需求的分布式机器学习范式。可信联邦学习将助推隐私计算应用在各种场景上,降低隐私计算的成本,提升隐私计算应用质量,从而加速推动隐私计算行业的发展。在2022年初我们发表了一篇论文叫做《联邦学习中隐私与模型性能没有免费午餐定理》,就论证了隐私保护、模型性能、算法效率三者需要平衡,且可以平衡。”杨强称。
2022年,微众银行与上海交通大学、中山大学等机构联合撰写的《联邦学习中隐私与模型性能没有免费午餐定理》《FedCG:联邦条件对抗生成网络》《FedIPR:联邦学习模型所属权验证》多篇论文被IJCAI2022、TPAMI2022、ACMTIST国际人工智能顶级学术期刊和顶级学术会议收录发表。
其中,《联邦学习中隐私与模型性能没有免费午餐定理》提出了隐私与模型性能的“No-free-lunch安全-收益恒定”定律,首次从信息论的角度分析揭示了联邦学习的模型效用与隐私保护之间的内在约束关系,利用该定律可实现可信联邦学习的安全、效用、效率三者的协调,在保证数据隐私保护的同时,也最大化模型效用和学习效率。有效运用该定律能够量化分析隐私计算各种技术保护方案的优劣,进一步优化隐私保护算法设计,为设计可信联邦学习算法提供有效的指导。
据清华大学发布的《联邦学习全球研究与应用趋势报告(2022)》统计,在论文研究方面,全球高被引论文领先的机构依次是谷歌、卡内基·梅隆大学、北京邮电大学及微众银行。从论文发布及高被引用论文数量、全球专利受理量及开源框架热度等几个方面来看,中国与美国正在引领全球联邦学习发展。“微众银行在联邦学习领域处于全球领先地位。”杨强称,从论文、专利、场景应用和生态发展等多维度来比较,微众银行已成为联邦学习领域的领头羊,但他更希望看到多个领头羊的出现。多个企业和机构都在探索和实践联邦学习是非常好的现象,对于促进行业生态的发展有着至关重要的意义。
而在应用方面,基于在金融领域的实践,微众银行的联邦学习已在联合风控、联合营销、反洗钱和反欺诈以及医疗领域获得一系列的探索成果。全球知识产权综合信息服务提供商IPRdaily与incoPat创新指数研究中心联合发布的“全球隐私计算技术发明专利排行榜(TOP100)”显示,入榜前10名企业主要来自中国和美国,其中,微众银行以204件专利位列排行榜第八名,在所有入选榜单的银行当中,微众银行名列全球第一。
构建联邦学习生态
“数据基础制度建设事关国家发展和安全大局。”12月19日发布的《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》强调,完善治理体系,保障安全发展。统筹发展和安全,贯彻总体国家安全观,强化数据安全保障体系建设,把安全贯穿数据供给、流通、使用全过程,划定监管底线和红线。加强数据分类分级管理,把该管的管住、该放的放开,积极有效防范和化解各种数据风险,形成政府监管与市场自律、法治与行业自治协同、国内与国际统筹的数据要素治理结构。“数字安全技术标准与国际规则的制定,已经成为了大国角逐的新战场。”杨强表示,数据流通的关键是价值流通,数据流通的目的是价值释放。安全、可信的数据跨境流通体系顶层设计过程,不仅包括数据安全和隐私计算技术的不断发展,还包括持续推进跨境数据审计和确权制度的完善,并构建完整的跨境数据价值交易平台,从而让数据在不出境、不可见的情况下,仍能达到价值流通与价值释放的根本目的。隐私计算、区块链等新兴技术赋能多样化场景,是实现数据跨境可信流通的主要方法。
为推动安全隐私技术蓬勃发展,微众银行早在2019年,将其自研的全球第一个联邦学习工业级开源框架Fed-eratedAITechnologyEnabler(FATE)捐赠给了Linux基金会,并持续丰富和补充联邦学习开源产品版图,扩大以FATE开源生态为核心的联邦学习生态。截至目前,FATE开源社区吸纳了电信运营商、金融机构、大型互联网与科技企业在内的多家成员单位,包括工商银行(601398)、中国银联、微众银行、中国电信、中国联通(600050)、中国银行(601988)、中银金科、建信金科、光大科技、易方达基金、腾讯云、美团、第四范式、VMware、星云Clus-tar、亚信科技、绿盟科技(300369)、医渡云等。“如果隐私计算和联邦学习技术只是掌握在少数机构的手里,数据还是得不到真正的流通,也难以大力支持数字经济发展,因此必须把门槛降低,其中一个有效手段就是开源,让人人都能够使用这样的技术,人人都能在实践中为技术做出贡献。”杨强说。
2022年4月,杨强又有了一个新身份——开放群岛(OpenIslands)开源社区执行主席。开放群岛 (OpenIs-lands)是由深圳数据交易有限公司联合国家智库、国家单位、高校、大型金融机构、大型互联网公司等多家发起单位牵头成立的国内首个国际化自主可控隐私计算开源社区。“联邦学习和传统的计算技术的区别,就是它不仅仅是一方变好就可以了。一方很有很强的技术、很强的人才,在联邦学习的场景下还不够,这只是其中的50%。另50%是构建一个网络,构建一个联邦学习的生态,所以就涉及到两方或者多方。目前已经有很多非常令人振奋的信号,比如各地数据交易所的挂牌等。”杨强最后称,随着大量应用案例落地以及执法、立法机构的加入,联邦学习正迎来蓬勃发展的新机遇,随着数据规模、技术复杂度、应用场景等丰富,进而进一步打破数据孤岛,并为更多行业创造更高价值。
最新评论