【数据治理】“数据安全流通”知识盘点之技术框架

最新推荐文章于 2024-06-19 10:16:40 发布

Hi ! Mr.Zhang

最新推荐文章于 2024-06-19 10:16:40 发布

阅读量3.2k

点赞数 2

分类专栏：数据治理文章标签：机器学习区块链人工智能

本文链接：https://blog.csdn.net/zhangzx18/article/details/115352599

版权

数据治理专栏收录该内容

2 篇文章 0 订阅

订阅专栏

1. 数据流通

数据流通是指某些信息系统中存储的数据作为流通对象，按照一定规则的从提供方传递到需求方的过程。

大数据时代，数据作为一种特殊的资产，能够在流通和使用过程中不断创造新的价值数。数据的频繁跨界流动，除可能导致传统的数据泄露风险外，还会引发新的安全风险。特别是在数据共享环节中，传统数据访问控制技术无法解决跨组织的数据授权管理和数据流向追踪问题，仅靠书面合同或协议难以实现对数据接收方的数据处理活动进行实时监控和审计，极易造成数据滥用的风险。

如何确保数据流通过程的安全是大数据行业发展中面临的极具挑战的问题，本文梳理了据安全流通的关键技术框架和工具【工具篇详见：“数据安全流通”知识盘点之技术工具】。

2. 数据流通技术框架实现概括

安全多方计算、区块链、联邦学习以及可信执行环境是近年来常用的几种技术框架。由于创造价值的往往是对数据进行的加工分析等运算的结果而非数据本身，因此对数据需方来说，本身不触碰数据、但可以完成对数据的加工分析操作。

安全多方计算这个技术框架就实现了这点其围绕数据安全计算，通过独特的分布式计算技术和密码技术，有区分的、定制化的提供安全性服务，使得各参与方在无需对外提供原始数据的前提下实现了对与其数据有关的函数的计算，解决了一组互不信任的参与方之间保护隐私的协同计算问题。

区块链技术中多个计算节点共同参与和记录，相互验证信息有效性，既进行了数据信息防伪，又提供了数据流通的可追溯路径。

联邦学习联邦学习可保证自身数据不出本地，通过加密机制下的参数交换方式，在不违反数据隐私保护法律法规的前提下，建立一个虚拟的共享模型（即解决数据孤岛问题），在该模型系统中，数据本身不移动，不会泄露用户隐私，也不会影响数据规范，充分保障了个人隐私信息及数据安全。

可信执行环境能够对进程，内存，存储功能提供安全和完整性保护的可处理环境，这种方法能够主动选择需要保护的数据和进程，使用隔离的方法保护敏感数据不被恶意软件和黑客窃取，与传统安全技术相比能够更加有效地保证数据的安全性和完整性。以下将对这对这几种技术框架进行简单描述。

3. 技术框架一：多方安全计算

安全多方计算技术框架描述安全多方计算（MPC）最初由图灵奖获得者、中国科学院院士姚期智教授在1982年通过百万富翁问题提出。安全多方计算的研究主要针对无可信第三方情况下，安全地进行多方协同计算问题，即在一个分布式网络中，多个参与实体各自持有秘密输入，各方希望共同完成对某函数的计算，而要求每个参与实体除计算结果外均不能得到其他用户的任何输入信息。安全多方计算的技术架构如下图所示：
在这里插入图片描述

图1 数据流通MPC框架

当一个MPC计算任务发起时，枢纽节点传输网络及信令控制，每个数据持有方可发起协同计算任务。通过框纽节点进行路由寻址，选择拥有相似数据类型的其他数据持有方进行安全的协同计算，参与协同计算的多个数据持有方的MPC节点根据计算逻辑，从本地数据库中查询所需数据，共同就MPC计算任务在数据流间进行协同计算，在保证输入隐私性的前提下，各方得到正确的数据反馈，整个过程中本地数据没有泄露给其它任何参与方。

4. 技术框架二：区块链技术

区块链是建立在互联网之上一个点对点的公共账本，由区块链网络的参与者按照共识算法规则共同添加、核验，认定账本数据网络中每个参与者都拥有一个内容相同的独立账本，且账本数据是公开透明的，这一去中心化的部署方式，结合密码、共识机制保证区块链数据极强的公信力，匹配数据流通在数据安全质量保障、权益分配、追审计和透明度等方面的需求。
在这里插入图片描述

图2 数据流通区块链框架

如图2 所示，联盟区块链是基于多方成员搭建的公共账本系统，支持智能合约发布和达成等相关事务操作认证、记录功能。数据供需双方接入区块链，需求方通过区块链发布智能合约，向数据供给方发起合作邀约，并通过本地区块链节点接收，批准和执行合约。第三方是指提供数据分析算法、分析结果应用的参与者，为缺少相关能力的数据需求方提供软硬件支持。审计监管方则为流通过程进行监督和公证,市场运管方负责数据流通的规范化、成员管理和区块链的运营由于区块链的匿名性质，联盟区块链的成员认证服务（CA，Certification Authority）由市场运营者主持，负责区块链成员准入认证和身份绑定，提高流通市场的稳定性和数据的品质合约生效前需要各方用户达成一致的内容包括但不限于：数据内容数据量、数据使用限制、交易期限、计费方式等。数据授受双方通过合约执行数据核验，数据计算，结果提交和放行等，并由市场运营方审计监管方规范合约履行过程数据计算由钱下的安全计算环节来完成，在链上完成结果汇总，该安全计算在数据持有方认可的保密执行环境中完成，避免计算过程数据外流或失窃。

5. 技术框架三：联邦学习

联邦学习（Federated Learning）最早由google于2016年提出，最初是用于解决安卓手机终端用户在本地更新模型的问题，其设计目标是在保障大数据交换时的信息安全、保护终端数据和个人数据隐私、保证合法合规的前提下，在参与多方或多计算结点之间开展高效率的机器学习。

联邦学习定义了机器学习框架，在此框架下通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题。虚拟模型是各方将数据聚合在一起的最优模型，各自区域依据模型为本地目标服务。联邦学习要求此建模结果应当无限接近传统模式，即将多个数据拥有方的数据汇聚到一处进行建模的结果。在联邦机制下，由于数据不发生转移，因此不会泄露用户隐私或影响数据规范。为了保护数据隐私、满足合法合规的要求，可运用联邦学习方法解决数据孤岛问题。

如图3所示，以包含两个数据拥有方（即企业A和B）的场景为例来介绍联邦学习的系统构架，该构架可扩展至包含多个数据拥有方的场景。假设企业A和B想联合训练一个机器学习模型，它们的业务系统分别拥有各自用户的相关数据。此外，企业B还拥有模型需要预测的标签数据。出于数据隐私和安全考虑，A和B无法直接进行数据交换。此时，可使用联邦学习系统建立模型。
在这里插入图片描述

图3 联邦学习系统框架

第一部分：加密样本对齐。

由于两家企业的用户群体并非完全重合，系统基于加密的用户样本对齐技术（如RSA），在A和B不公开各自数据的前提下确认双方的共有用户，并且不暴露不互相重叠的用户。以便联合这些用户的特征进行建模。

第二部分：加密模型训练。

在确定共有用户群体后，就可以利用这些数据训练机器学习模型。以线性回归模型为例，训练过程可分为以下五步：

第一步：A和B把各自公钥分发给对方，用以对训练过程中需要交换的数据进行加密；
第二步：A和B分别进行本地的训练，产生不含敏感信息的中间梯度结果。
第三步：A和B之间以加密形式交互用于计算梯度的中间结果；
第四步：A和B分别基于加密的梯度值进行计算，同时B根据其标签数据计算损失，并汇总计算总梯度；
第五步：A和B根据新计算的梯度更新各自模型的参数。

迭代上述步骤直至损失函数收敛，这样就完成了整个训练过程。在样本对齐及模型训练过程中，A和B各自的数据均保留在本地，且训练中的数据交互也不会导致数据隐私泄露。因此，双方在联邦学习的帮助下得以实现合作训练模型。

考虑参与联邦学习的多个数据拥有方，每个数据拥有方各自持有的数据可以用一个矩阵来表示。矩阵的每一行代表一个用户样本，每一列代表一种用户特征，同时，某些数据集可能还包括标签数据。如果要对用户行为建立预测模型，就必须要有标签数据。但是，在现实中，往往会遇到这样的情况，即各个数据集的用户不完全相同，或者用户特征不完全相同，具体而言，以包含两个数据拥有方的联邦学习为例，数据分布可以分为以下三种情况：

两个数据集的用户特征重叠部分较多，而用户重叠部分较少。
两个数据集的用户重叠部分较多，而用户特征重叠部分较少。
两个数据集的用户与用户特征重叠部分都比较少。

为了应对以上三种数据分布情况，把联邦学习分为横向联邦学习、纵向联邦学习、联邦迁移学习，如图4所示。
在这里插入图片描述

图4 联邦学习系统框架

6. 技术框架四：可信执行环境

可信执行环境（TEE，Trusted Execution Environment）是Global Platform提出的概念，是CPU内的一个安全区域。它运行在一个独立的环境中且与操作系统并行运行。CPU确保TEE中代码和数据的机密性和完整性都得到保护。通过同时使用硬件和软件来保护数据和代码，TEE比操作系统更加安全。在TEE中运行的受信任应用程序可以访问设备主处理器和内存的全部功能，而硬件隔离保护这些组件不受主操作系统中运行的用户安装应用程序的影响。TEE作为一种通过隔离的方法保护数据和程序的技术，与传统安全技术相比，能够主动防御来自外部的安全威胁，更有效地保障自身安全。

图5 TEE体系结构

目前引入可信执行环境较为成熟的技术有ARM的TrustZone和Intel的SGX（Software Guard Extensions）等。

6.1. TrustZone

TrustZone将系统的硬件和软件资源划分为两个执行环境——安全环境（Secure World）和普通环境（Normal World），安全环境拥有更高的执行权限，普通环境无法对其进行访问，实现隔离的执行环境。当不安全的用户模式需要获取安全域的服务时，一个程序想要进入安全环境中，操作系统需要检查其安全性，只有通过检验的程序才能进入安全环境，以此来确保TrustZone的安全性，这也意味着整个系统的安全性由底层操作系统来负责。

图6 TrustZone执行环境框架

6.2. Intel SGX

SGX是Intel由提出的基于CPU的实现执行环境隔离的新一代硬件安全机制。SGX通过内置在CPU的内存加密引擎ME（Memory Encryption Engine）以及Enclave实现了应用程序运行安全和数据安全。Intel SGX允许应用程序实现一个被称为Enclave的容器，在应用程序的地址空间划分出一块被保护的区域，将合法软件的安全操作封装在Enclave中，为容器内的代码和数据提供机密性和完整性保护,免受拥有特权的恶意软件的破坏。当应用程序需要保护的部分加载到Enclave后，保证只有位于Enclave容器内部的代码才能访问Enclave所在的内存区域,容器之外的任何特权和非特权软件都不能访问Enclave内部数据。所有的Enclave都驻留在EPC（Enclave Page Cache）中，EPC是系统内分配的一块被保护的物理区域。

图7 Intel SGX执行环境框架

7. 技术框架对比

多方安全计算、区块链技术、联邦学习以及可信执行环境的对比描述见表1所示：
在这里插入图片描述

参考资料：
[1]《数据流通关键技术白皮书（1.0）》

Hi ! Mr.Zhang

关注

2
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
【数据治理】“数据安全流通”知识盘点之技术框架

目录1. 数据流通2. 数据流通技术框架实现概括3. 技术框架一：多方安全计算4. 技术框架二：区块链技术5. 技术框架三：联邦学习6. 技术框架四：可信执行环境6.1. TrustZone6.2. Intel SGX7. 技术框架对比1. 数据流通数据流通是指某些信息系统中存储的数据作为流通对象，按照一定规则的从提供方传递到需求方的过程。大数据时代，数据作为一种特殊的资产，能够在流通和使用过程中不断创造新的价值数。数据的频繁跨界流动，除可能导致传统的数据泄露风险外，还会引发新的安全风险。特别是在数
复制链接

扫一扫

专栏目录