5月6日,同盾科技人工智能研究院团队在院长、佛罗里达大学终身教授李晓林带领下,经过长期打磨,重磅推出《知识联邦白皮书》。白皮书中对知识联邦的背景、定义、平台、挑战、场景应用以及未来发展前景进行了全方位、全景式剖析,并对人工智能3.0时代进行展望。与此同时,同盾科技人工智能研究院自主研发的基于知识联邦体系的智邦平台V2.1正式发布。
在原有平台基础上,智邦平台V2.1版升级了安全功能、安全交换的算法和策略。同时增加了面向数据安全交换的标准产品,极大地简化数据对接和融合的成本。此外,结合公司自身丰富的风控/营销模型分析优势,提供了基于树模型/逻辑回归/深度神经网络等快速部署的联邦算法,本文重点阐述智邦平台安全的数据和知识交换体系。
数据安全和隐私保护是联邦的核心。知识联邦首先将数据转化成信息、模型、认知或知识,满足数据不可见,再通过联邦的方式实现数据可用,打造安全的人工智能。同时,也面临一个安全合规问题,如何从技术端保障企业之间的数据安全,并让大多数公司愿意加入联邦?
智邦平台V2.1就安全的数据和知识交换体系构建做了下列工作:
数据分级与脱敏
通常情况下,安全级别越高则意味着整体效率的降低,对此智邦平台根据个人信息的类型、敏感程度、处理方式等对个人信息进行分类,对不同敏感等级的隐私数据进行不同层级的隐私保护,从而来平衡安全和效率的问题。比如对不同敏感等级的数据采用不同的脱敏方法,脱敏方法有部分屏蔽、泛化、哈希加密等。同时要保证去标识化和脱敏后的各方数据具有一致性。
全程过程域的数据安全和隐私保护
智邦平台的数据安全性可以从数据完整的过程域进行评估,包括数据导入、数据存储、数据处理、数据传输、数据共享、数据溯源、数据销毁。比如在银行的风控场景,用户数据的敏感等级较高,但又希望能结合其他银行或其他机构的数据特征进行特征维度的补充从而优化建模效果。在各机构进行联邦学习时,样本对齐、特征选择、模型训练、预测等均保证数据“可用不可见”。在样本对齐环节,使用Hash函数、对称加密算法安全快速计算参与方交集,保护交集外数据不泄漏。智邦平台设计的业务场景是至少一方数据量级为亿级别,常规的样本对齐方式传输量和消耗时长非常巨大,目前智邦平台在相同资源下,运行效率可以提升近百倍;在模型训练和预测环节,根据模型的特点采用一次一密、同态加密的方式来对梯度或模型参数进行加密,一次一密的密钥使用Diffile-Hellman密钥交换协议、安全伪随机数发生器生成。
三级网络安全域的划分
智邦平台将数据联邦划分为三个的安全域:数据提供方私有域、数据交换域、联邦聚合域。私有域和交换域都在参与方本地,私有域持有所有原始数据;数据交换域持有脱敏后用户身份信息(用户姓名、身份证号或手机号等)及原始特征和标签;联邦聚合域不持有参与方数据,仅接收加密后的模型参数或梯度信息等,并进行聚合计算。域边界处部署防火墙,通过防火墙策略控制白名单 IP 网段接入访问。在不同域之间设置策略进行控制,比如在私有域中的数据放入交换域前需要按联邦约定的方式进行脱敏、匿名化处理,同时,交换域和联邦域通过 CA 证书双向认证,且采用加密信道对数据发送和接收进行加密保护。智邦平台提供交换域和联邦聚合域的实现;私有域由参与方提供,一般为参与方数据生产环境。交换域和私有域部署在参与方本地,联邦聚合域部署在第三方机构。
安全的第三方
智邦平台采用的是弱中心化的分布式方法,相对强中心化的方式,弱中心化更能保证数据的安全和合规。强中心化方式第三方通常会聚集保存所有参与方的数据,且计算和学习都在中心节点完成,这种方式有数据安全隐患。另外,市场上还有采用一些完全去中心化的方法来保证数据安全,但去中心化模式没有中心节点,需要所有参与方互联互通。当节点规模较大时,通信成本很高,达成共识效率低下。
相较而言,智邦平台的弱中心化模式中原始数据是保留在本地的,且不会离开本地,计算和学习仍然发生在本地,第三方的存在只是一个协调和仲裁作用,它不会触碰和保存所有的原始数据,更多地是对参与方进行知识信息聚合,并对参与方的数据质量和贡献进行仲裁。事实上,第三方可以是虚拟的,只是一个可审计和可追溯的机器。在数据参与方都达成共识的情况下,虚拟第三方可以部署在更担心数据安全的一方的私有云上,也可以部署在多方都认可的公有云或专有云上。第三方也可以是实体机构,一般是一个中立的、可信的机构。可信第三方要保证在任何情况下都不会撒谎,也不会泄露任何不该泄露的信息。
针对实际的业务场景,例如股份制商业银行需要面向政府机关调用相关数据接口,并需按要求留下调用用户的部分信息。在这种场景下,政府机关的数据接口和调用的用户信息,都应该是可用不可见且不适合对外保存的。智邦平台V2.1提供数据安全交换功能,在单次查询和批量调用情况下,都可以做到“数据可用不可见”。
《商业银行法》明确规定,商业银行不得非法查询个人储蓄存款,如有违反,对直接负责的董事、高级管理人员和其他直接责任人员,应当给予纪律处分。近日某行未经本人同意泄露个人银行消费信息事件,不仅是对银行系统合规性的检视,也是公民个人隐私信息保护缺失的现状,假如银行内部对明文数据查询有安全的处理机制,就可从源头就会断绝这类事件的发生。
由此案例可见,当下社会对知识安全交换的需求仍是普遍存在的。而业界在知识联邦、联邦学习的应用落地上还存在以下问题:比如如何应对各方数据数据的多样性和训练环境的不同,如何提升联邦学习效率等。后续同盾也会针对智邦平台V2.1的易用性、智能性方面展开详细解读。
|
|