基于数据纯度的模型博弈定价方法

本文提出了一种基于数据纯度的模型博弈定价方法,旨在解决数据市场中数据拥有者补偿、收益最大化和隐私保护问题。通过引入数据纯度概念,考虑数据质量和噪声水平,为数据拥有者提供公平补偿。在模型出售端,利用博弈论确保数据平台和模型购买者双方收益最大化。实验表明,该方法能有效平衡各参与方利益,促进数据市场的健康发展。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

目录

引言

1 相关概念

1.1 数据市场

1.2 博弈论

1.3 差分隐私

2 问题定义

图1

3 基于数据纯度的模型定价

3.1 数据收购端

3.2 模型出售端

4 实验与评估

4.1 实验配置与数据处理

图2

4.2 实验结果与分析

4.2.1 补偿函数

图3

4.2.2 数据平台收益

图4

4.2.3 数据平台收益

图5

5 相关工作

6 总结


摘要

【目的】 在大数据时代,数据流通和共享已经是大势所趋。因此数据定价与交易方法近来广受关注。作为数据定价的重要组成部分,模型定价是数据定价研究的重中之重。在模型定价中,首先需要解决数据拥有者的补偿问题和参与人的收益最大化问题。其次,为了使数据拥有者放心地参与到数据交易中,还要回应其隐私需求。同时,作为模型精度直接影响因素的数据质量也是研究重点。【方法】 因此本文在考虑用户隐私需求和数据质量的基础上,提出了基于数据纯度的模型博弈定价方法,在数据收购端以数据质量和噪声多少即隐私保护水平作为补偿依据,在模型出售端以博弈论为定价方法。【结果】 本文提出的方法既能给予数据拥有者公平便利的补偿,又能使数据平台和模型购买者收益最大化。【局限】 但是对于复杂交易环境下的博弈过程仍需相应改进。【结论】 通过实验证明了方法的有效性,为模型定价和数据市场的发展提供了新思路。

关键词: 数据质量; 博弈论; 数据市场; 模型定价; 隐私保护

引言

随着物联网和移动网络技术的发展,各种工业自动化设备、移动设备产生大量不同类型的数据,这些数据越来越多地被视为珍贵资源。数据是新的石油资源,蕴含巨大价值[1]。由于数据产生于不同领域,因此导致了数据孤岛的产生。这不利于大数据产业的健康发展。为了解决该问题,提出了数据共享的概念,分为开放数据共享[2-3]和数据交易两种途径。开放数据共享是通过公用开放数据接口或者政府组织共享数据,可供分享的数据种类有限。数据交易是把数据推向市场,通过买卖方式共享数据。数据交易可以建立起一套规范的数据共享规则,使买卖数据双方都能够在该规则运行下得到自己想要的结果。在数据交易市场中,拥有数据的组织和公司可以通过交易得到相应回报,称为激励;而数据购买者也在其数据分析任务的驱使下,到数据交易市场购买数据。但是最初的数据交易市场仅提供原生数据,这要求许多数据购买者对数据自行加工,往往超出其能力范围。同时,由于数据产品相较于普通产品而言,其边际成本为0,即数据可以在成本趋近于0的情况下随意复制,导致使用传统的经济学方法对数据进行定价较为困难。因此一部分学者将研究重心从对数据的交易转向于对服务的交易。由数据平台收购原始数据,通过自己的加工对消费者提供相应服务并抽取一定佣金。

基于上述问题,Chen等人[4]提出了基于模型定价的概念。其核心观点是,市场不再销售原始数据给买家,而是提供不同精度选项的机器学习模型,即将数据定价转换为机器学习模型的定价。但提出的方法仅能够使卖方收益最大化,同时其提到的市场调查方法对于普通卖方来说过于复杂。Jia等人[5]基于最近邻模型提出了定价方法,使用Shapley[6]来解决补偿的问题,但文章只注重数据平台和数据拥有者的交互。文献[7]提出的基于博弈论的模型定价方法虽然将数据市场的3个参与方都考虑在内,并实现了三方收益最大化,但文章设计的框架要求数据拥有者提供其收益函数,这在现实场景中往往不切实际。同时,数据质量作为模型效果最直接的影响因素,近来也吸引了相当的关注。但很少有文章将数据质量应用于模型定价当中。

为了弥补上述缺点,本文提出了基于数据纯度的模型博弈定价方法,注重数据市场3个参与方的交互。首先,在数据收集端,基于所收集到训练数据的质量和添加噪声数据多少两个指标提出了数据纯度的概念,并以其为依据对数据单位贡献进行补偿。由于数据纯度是基于数据真实的内在价值计算出来的,因此数据平台可以根据数据纯度提供给数据拥有者公平的补偿。其次,在数据出售端,数据平台根据模型购买者的购买意愿,以收集到的数据为基础,训练出符合模型购买者需求和数据贡献者隐私保护程度的产品,以平台收购数据的成本即补偿金额和模型训练成本为其定价基础,与模型购买者进行两阶段的Stackelberg博弈,以使得双方都能够达到收入最大化。

本文组织结构如下:第1节介绍数据市场和博弈论的相关概念;第2节介绍问题的定义;第3节对整个定价方法流程进行介绍,并对相关定理进行了证明;第4节通过实验证明了方法的有效性;第5节介绍相关工作;第6节对本文进行了总结。

1 相关概念

1.1 数据市场

在文献[8]中,数据市场被定义为任何人(或至少大量潜在注册客户)都可以上传和维护数据集的平台。数据的访问和使用通过不同的许可模式进行监管。通常情况下,数据市场定义为可以吸引拥有数据的客户和购买数据或服务的客户进行交易的平台或市场,该市场可以为拥有数据的客户提供补偿等服务,为购买数据的客户提供查询等服务,同时可以为双方进行匹配,并收取一定佣金。由上文可以看出,在数据市场中,主要包含数据拥有者、数据交易平台(简称数据平台)、数据或服务购买者3个参与方。

数据拥有者,或者称为数据卖家、数据提供者,负责向数据平台提供数据,并接受数据平台给予的相应补偿;数据平台也称为数据中间商、数据中介、经纪人等,负责对收购到的数据进行集成整合,设定数据收购价格并补偿数据拥有者,设定数据出售价格,为数据消费者提供查询其希望购买数据的接口和服务,给数据消费者提供数据并对出售的数据提供隐私、版权保护等任务;数据消费者又称为数据买家,在数据交易中需要完成的任务是向数据平台提出需求,并支付一定金钱从数据平台购买到自己所需的数据。

1.2 博弈论

博弈论是经济学中重要的研究方法,也称为对策论,是研究决策主体的行为发生直接相互作用时的决策以及这种决策的均衡问题。博弈是指两个或者两个以上理性的个体或组织,在一定规则的约束下,参加一系列的竞争性行为,并且综合考虑对手可能实施的行为,在其基础上做出最有益于自己的决策。

博弈论中最为常用的一种博弈为Stackelberg博弈,其应用场景如下:一个参与人(领导者)先行发布自己的价格策略,另一个参与人(追随者)依据领导者的策略做出相应策略选择,并进行优化,以得到最优的价格策略,这种模式被称为Stackelberg博弈[7]。在Stackelberg博弈中,参与人1(领导者)首先确定自己的价格策略v1v1,参与人2(追随者)在观察到v1v1后,确定自己的价格策略v2v2,该博弈属于完全信息动态博弈。由于参与人1(领导者)先于参与人2(追随者)行动,不能掌握v2v2的信息,所以对于参与人2(追随者)来说,其价格策略是一个从V1→V2V1→V2的映射TTHaddadi等人[9]Lv等人[10]证明了使用Stackelberg模型可以让参与博弈的各方实现收入最大化。

1.3 差分隐私

差分隐私作为一种隐私保护手段,在模型交易市场中应用十分广泛。其正式定义如下:

给定两个近邻数据集DD'D'εε是一个正实数,AA是一个随机算法,值域为Range(m),其在数据集DD'D'上任意输出结果x(xrange(m)xrange(m)),且满足下面的不等式,则称算法AA满足εε-差分隐私。

Pr[A(D)x]eεPr [A(D')x]Pr[A(D)x]≤eεPr [A(D')x]

1

简单来说,该定义意味着满足差分隐私的随机算法输出结果在两个数据集上是不可区分的。而εε定义了这个不可区分的程度,可以看作是每个数据集的隐私损失上限。εε越小,输出结果的不可区分性就越大,隐私损失就越小。在本文中,数据平台训练的模型都是有差分隐私保证的,根据差分隐私对于后处理特性,模型购买者在收到模型后对模型进行任何后处理都不会产生额外的隐私损失[11]

2 问题定义

在本文设计的数据市场中,参与者主要分为3种类型:数据拥有者,数据平台和模型购买者。其中数据拥有者给数据平台贡献收集到的训练数据,同时提供自己能够接受的隐私保护水平,由εε定义,并接受来自数据平台的相应报酬;模型购买者向数据平台提交自己购买模型的意向精准度以及相应预算。数据平台负责将其收到的数据进行清洗、训练,并通过添加噪声方式满足数据拥有者的隐私保护需求,同时生成满足模型购买者精准度和预算的模型。数据平台在保证给予数据拥有者一定补偿和对数据进行清洗、训练的成本外,与模型购买者进行两阶段的Stackelberg博弈,最终使得双方收益最大化。

如图1所示,首先,数据拥有者提供自己希望出售的数据及希望的隐私保护偏好值,数据平台根据数据及εε值计算数据纯度,并通过市场调查获得的数据纯度-价格的曲线,给数据拥有者提供相应的补偿。然后,模型购买者进行自己的调查,获得模型精度对应价值的曲线,并对数据平台提出模型购买需求。数据平台在收到购买需求后,为其训练模型并提供实例。然后模型购买者和数据平台进行两阶段的Stackelberg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

米朵儿技术屋

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值