基于博弈论和拍卖的数据定价综述

本文探讨了大数据时代的数据定价问题,特别是在基于博弈论和拍卖的框架下。研究了数据定价模型,包括非合作博弈、Stackelberg博弈和讨价还价博弈,并分析了各种拍卖机制,如第一价格密封拍卖、第二价格密封拍卖和VCG拍卖。文章强调了数据交易市场的参与者,如数据拥有者、消费者和中间人,并讨论了集中式和分布式数据交易市场的优缺点。文章还提出了数据定价模型的评估标准,如诚实性、收益最大化和公平性,为数据定价研究提供了参考。
摘要由CSDN通过智能技术生成

点击上方蓝字关注我们


基于博弈论和拍卖的数据定价综述

张小伟1, 江东1, 袁野2

1 东北大学计算机科学与工程学院,辽宁 沈阳 110819

2 北京理工大学计算机学院,北京 100081

 

 摘要在大数据时代,随着数据爆炸式的增长,将数据视为一种商品,建立一个高效的数据交易市场,通过数据交易市场为数据拥有者提供利益补偿,为数据需求者提供数据或服务,使得数据能够在数据拥有者和数据需求者之间充分地自由流动显得尤为重要。然而如何为数据设定合理的价格是必须考虑的。对基于博弈论和拍卖的数据定价进行了研究,调查了该分类下不同的数据定价模型,并将其分为不同的类型,综合比较各个模型的优劣。将常见的数据交易市场进行分类,指出不同的数据交易框架在实现过程中的优点和挑战。对已有的数据定价研究进行总结,以便数据定价领域的学者能更轻松地掌握该领域的研究现状及重点。

关键词数据定价 ; 数据交易市场 ; 博弈论 ; 拍卖

论文引用格式:

张小伟, 江东, 袁野. 基于博弈论和拍卖的数据定价综述[J]. 大数据, 2021, 7(4): 61-79.

ZHANG X W, JIANG D, YUAN Y. A survey of game theory and auction-based data pricing[J]. Big Data Research, 2021, 7(4): 61-79.


1 引言

近年来,随着物联网(Internet of things,IoT)的发展,基于IoT的智慧世界系统(智慧电网、智慧交通、智慧城市)发展迅速,来自各种设备或应用程序的日志文件、数据库文件、视频、图片、文档等数据呈爆发式增长。数据作为一种新的生产要素,促进及引领了新一轮的科技创新和经济增长。然而,在大数据繁荣发展的背后有一个问题不容忽视,即“数据孤岛”。不同的企业甚至不同的部门之间的数据无法流通,如统计局和医院等机构长期存储大量个人信息数据,滴滴和美团等企业掌握了大量的用户信息及出行信息,若无法将数据以合理的价格销售,不仅无法最大化数据拥有者的收益,还会为维护和存储数据耗费大量财力。近年来发展迅速的机器学习和深度学习需要大量的数据进行训练以提高测试精度,但是由于数据收集困难,导致训练精度无法提升,因此数据需求者需要一个渠道来获得大量且可靠的数据。基于上述需求,Oliveira A C等人提出了数据即服务(data as a service,DaaS)的概念。在DaaS中,数据被认为是一种商品,可以通过购买数据,并将其处理之后获得知识,进而帮助企业、政府做出决策。因此,在数据拥有者和数据需求者之间搭建一个数据交易平台,越来越受到人们的关注。

要建立一个合理有效的数据交易市场,需要解决以下几个问题。第一个问题是市场的参与者是谁?数据的参与者可以分为3类,分别是数据拥有者、数据消费者、交易中间人。数据拥有者通常为政府、私人企业(如微软、雅虎、微博等)或者个人;数据消费者即数据需求者,可能为数据处理算法开发人员、数据分析师等;交易中间人即第三方交易平台,如现有的贵阳大数据交易所、中关村数海大数据交易平台等。按照交易中间人职能的不同,可以将其分为中间商和服务提供商,中间商负责连接数据拥有者和数据消费者,此时交易的是原始数据,如中关村数海大数据交易平台;而服务提供商一般会对数据拥有者的原始数据进行处理,为数据消费者提供处理之后的数据,如贵阳大数据交易所。第二个问题是如何为确定交易的数据设定合理的价格?在设定相应的数据定价模型时,必须考虑相应的市场结构以及数据需求者和数据拥有者的需求,确保双方的收益。第三个问题则与数据交易市场相关,即选择何种数据交易市场才能确保市场参与者的需求得到满足,实现公平、隐私保护等,如选用基于分布式的数据交易市场能够解决隐私泄露的问题。为了解决上述问题,笔者对大数据交易市场进行了全面的调查,以帮助希望了解该领域的新来者对这一复杂的学科和新兴的研究领域有一个大致的了解。

2 数据定价及相关概念

2.1 数据的定义及特性

在大数据时代,每天都有接近25 TB的数据产生。中国信息通信研究院发布的《大数据白皮书(2020年)》预测,2030年全球数据生产量将达到612 ZB,而2035年时将达到2 142 ZB,全球数据量将迎来爆发式的增长。

在从庞大的数据集中提取数据的价值时,经常用数据挖掘和商业智能(business intelligence,BI)来描述大数据的处理过程,并且往往需要通过这些手段来发现数据的价值。数据的价值与数据的交易价格关系密切。

给数据一个确定的价格,将数据视为一种可以自由交易的商品,可以提高数据市场的流动性,从而创造更大的价值。然而相比于传统的实物商品,数据商品在生产、分配和消费的流程中显著降低了成本,分别表现在商品的搜索成本、生产成本、复制成本、运输成本和跟踪与验证成本这5个方面。并且,数据的特性导致数据的复制成本接近0,即边际成本接近0,这导致无法使用边际成本等于边际收益的方式使数据产品的收益最大化,这与传统的实物产品不同。同样,数据产品的一个明显特征为非竞争性,即一个数据消费者消费一件数据商品并不会减少和降低其他数据消费者可以得到的产品数量和质量。但是数据同样具有排他性,即数据消费者需要支付一定的费用来获得数据的使用权。

2.2 常见的数据定价方式

Muschalle A等人介绍了数据市场中可以参考的收费策略,主要包括如下几种。

● 通过控制版本来收费,如企查查等应用,用户可以免费使用基础版本查询信息,但是如果需要更高级的信息,则需要购买专业版。

● 基于使用时间的收费,像拨号上网那样,根据使用时长收取费用,但是该方式的缺陷是对于一个无法明确自己需求的数据需求者或者不熟悉购买方式的数据需求者而言,他需要花费大量时间,导致花费太高,从而可能抑制数据需求者的购买欲望。

● 以固定费用获取一定量数据的永久使用权或应用程序接口(application programming interface, API)的调用权。Kantere V等人对该方法进行了详细的研究。

● 以统一的定价对产品进行收费,如参考文献中的方式,但是该方式缺乏灵活性。

● 组合定价,即固定的基础费用加额外的单位费用。如各大电信运营商的收费分为基础的套餐费用和在此基础之上的额外单位费用。

数据交易市场中常见的数据定价方式可以分为:基于博弈论和拍卖的数据定价、基于查询的数据定价、基于模型的数据定价(model-based pricing,MBP)。其中,基于博弈论和拍卖的数据定价更注重价格发现的过程,利用数据交易市场的不同特点,使用不同的方式确定适当的数据价格。

2.3 数据定价模型的标准

由前文可知,有多种多样的方法来设计和实现数据产品的定价。针对如何衡量这些定价模型的优劣以及一个优秀的定价模型应该满足什么标准,Pei J将数据定价的标准分为6类,具体如下。

● 诚实:参与数据交易的各方均有动力“说真话”,报出自己真实的估价。

● 收益最大化:无论是数据拥有者还是数据消费者,他们参与交易最直接的动力是使自身的利益最大化。

● 公平:数据的卖家能够根据自身的贡献量获得公平的收入份额。

● 无套利定价:无法通过多个市场之间的价格差异来获得收益。

● 隐私保护:能够保护参与交易的各方的信息。

● 计算效率:由于数据商品自身的特性,如数据的时效性或多卖家多买家之间的适当匹配机制,需要高速有效的计算方法。

本文将沿用这6个标准来衡量下述研究的优劣。

  • 7
    点赞
  • 29
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值