基于区块链的数据市场

点击上方蓝字关注我们

基于区块链的数据市场

汪靖伟, 郑臻哲, 吴帆, 陈贵海

上海交通大学计算机系,上海 200240

论文引用格式:

汪靖伟, 郑臻哲, 吴帆, 陈贵海. 基于区块链的数据市场. 大数据[J], 2020, 6(3):21-35

WANG J W, ZHENG Z Z, WU F, CHEN G H.Blockchain based data marketplace. Big Data Research[J], 2020, 6(3): 21-35

1 引言

当今世界中的数据量正在迅速增加。在线社交网络Facebook自成立以来,已经收集了超过300 PB的个人数据,而这个规模还在进一步扩大。IBM公司的研究人员提出,当今世界90%的数据是在过去2年中产生的,而且随着新的设备和技术的出现,数据增长会进一步加快。在大数据时代,数据不断地被收集和分析,进而引领科技创新和经济增长。公司和组织使用其收集的数据提供个性化的用户服务、优化公司决策过程、预测未来趋势等。在广泛的数据使用过程中,人们开始关心个人数据的安全问题,担忧提供服务、收集数据的互联网公司是否会保护用户的数据隐私,而人们几乎无法控制他们所产生的数据及其使用方式。近些年来,许多与侵犯用户数据隐私有关的事件被报道,其中最著名的例子就是Facebook的5 000万用户数据被泄露,用户的隐私遭到了很大程度的侵害。

为了保证数据的正常流通与使用,充分发挥大数据的价值,近年来兴起了众多关于个人数据共享与交易的新兴机构。除了传统的数据流通方式(即公司与用户之间广泛存在的数据换取服务的模式)外,还涌现出了大数据共享交易市场,通过将数据需求与数据源进行匹配来促成数据交易。这些数据市场已经具备了相当的规模,这些数据市场被估值数百亿美元,并在持续增长。在数据市场中,数据持有者展示他们的数据信息,以吸引潜在的数据消费者;数据消费者搜索、选择他们需要的数据集,并通过支付一定的费用来获取数据使用权;数据市场通过促成数据交易来获得收益。但随着数据共享交易规模、数据价值的增长,共享交易过程中的欺诈和泄密的情况也会逐渐增多。集中式数据市场的架构一般如图1所示,在这种架构中,集中式的公司或组织运营的市场平台在系统中起着至关重要的作用。市场中涉及的各方——数据卖家、数据买家和市场平台,能通过串通舞弊、套利购买策略等方式获得更高的收益。此外,集中式的数据交易模式缺乏数据买方与数据卖方之间有效的信息沟通渠道,导致数据交易效率低下。最后,市场平台拥有更多的信息优势,即市场平台知道数据内容,而数据买家在未购买数据之前无法知晓数据内容,因此市场平台可以通过构建信息壁垒并控制信息披露来非法获得收益。

集中式数据市场存在一些不可避免的数据安全隐私、数据版权保护以及共享流通性能瓶颈等问题。首先数据交易的中介(通常情况下是市场平台)必须是安全可信的。市场平台需要具备公信力,确保其不会非法使用交易中的数据,泄露数据持有者的隐私。然而市场平台存在这样的动机,而且即使它违规使用、出售了数据,一般也难以追究。同时,集中式数据市场很容易成为攻击者的目标,用户的敏感信息(例如位置、聊天记录等)被保存在集中式的数据库中,存在隐私泄露和数据丢失的风险。现有大多数的数据市场在集中式服务器上运行,这样的系统存在着单点故障和单点性能瓶颈。有研究表明,现有的集中式数据市场还会控制买家和卖家的互相搜索,导致市场运行效率低下。

为了规避集中式数据市场的弊端,去中心化的数据市场诞生了。去中心化的数据市场架构可以规避依赖可信中介介入数据交易的要求,摆脱单点故障和单点性能瓶颈,并提高透明度和可信度。但是去中心化的数据市场由于缺乏中心的管理,其系统设计与安全性保证会比集中式数据市场更困难,比如“双重支付”问题一直是分布式系统的难点。近些年来,区块链技术日趋成熟,区块链去中心化的架构可以作为数据市场的底层架构,提供良好的支持。区块链是一种去中心化的分布式数据存储技术,在数据市场系统中引入区块链层,将使个人用户能够直接与数据需求方达成交易,不依赖任何第三方,从而让用户保持对数据的所有权,并确保交易过程的公开透明。

2 市场调研与相关研究

2.1 现有数据交易市场调研

由于数据有优化决策和提供服务的功能,各个组织和机构都开始关注数据的流通和交易。比如,Datashift、Gnip、NTT DATA等公司转售来自Twitter等社交网络的数据,Xignite公司出售金融行业的数据,Factual公司则关注地理位置数据的交易。同时,还涌现出了大数据共享交易市场,通过将数据需求与数据源匹配来促成数据交易,比如Infochimps、AWS Dataexchange、Qlik Datamarket、Here等。Datacoup是一个集中式数据市场平台,允许用户出售各种类型的个人数据(包括财务数据和社交账户数据),其客户端应用程序允许用户从第三方应用程序(如Facebook和Twitter)导入数据。由于Datacoup从用户手中收集原始数据,因此用户必须在数据存储和数据管理上完全信任Datacoup。与Datacoup类似,People.io是一个集中式平台,其最大的特点是不会将个人数据直接出售给其他组织。它使用机器学习算法分析用户的个人数据,然后向用户推送个性化广告。用户虽然不会因提供其个人数据而直接获得奖励,但是他们可以通过接收个性化的广告来获得收益。

图1   集中式数据市场架构

国内数据市场的发展尚不成熟,还未形成完整的数据流通交易的产业链条。比如有以互联网企业为主导的大数据共享平台,它们的数据大多来源于旗下应用软件收集的数据,如阿里云、京东万象等;还有数据堂、数海、浪潮天元、数多多等数据共享与交易的平台,这些平台以多种途径收集来自第三方的数据,实现大数据资源的在线交易。此外,还有由政府主导的大数据交易中心,这些中心多为政府/国企独资,或国企与民企合资,如贵阳大数据交易所和上海数据交易中心等。然而这些数据交易中心一般比较封闭,其具体的数据市场架构技术还比较模糊。

近几年,基于区块链的分布式数据交易市场引起了业界的极大关注。IOTA是专门针对物联网(IoT)设计的加密“货币”,利用区块链技术已经搭建了针对物联网数据的交易市场。类似的公司还有DataBrokerDAO、Datum、Datapace和Wibson等,这些公司有的直接出售其收集的数据集,有的向大众收集个人数据,并将其出售给个人用户。国内也有一些使用区块链技术构建数据市场的例子,如上海数据交易中心采用联盟链将与交易有关的信息存储在区块链节点中,以确保数据交易安全、高效、可信。现有的区块链数据市场都只保证了数据市场构建的某些要素,没有全面地考虑构建数据交易市场应该达到的目标:去中心化、公平性、隐私性、有效性以及经济学性质。在第3节中,笔者将详细讨论这些性质。

2.2 相关研究工作

在研究界中也有许多工作涉及区块链、数据市场及其相关问题。Balazinska M等人讨论了新兴数字数据市场的意义,并列出了这一方向的研究机会。Zys

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值