摘要:本文以人工智能大模型为背景,从现有法律框架出发,探讨AI模型训练数据的权属及合规使用问题。文章首先分析了我国数据权属的法律现状,包括基础性法律的原则框架,"数据二十条"等政策指引,以及各地方立法开展的探索。其次,文章重点从市场主体获取数据的不同方式出发,分析了自有数据、授权数据和公域数据三类数据的权属分配问题,厘清了数据来源者、数据采集经营者和数据加工使用者等不同主体的权利边界。针对各类数据,文章提出了合规使用建议,包括数据分类管理、使用范围限制、技术防护措施等。
关键词:数据权属;数据分级分类;训练数据;个人信息保护;数据合规
一、引言
2025年初春最火热的话题非AI莫属,随着DeepSeek、通义千问在内的各类国产AI大模型蓬勃发展,各类AI应用已经开始被大家广泛应用于学习和工作中,AI发展的新纪元已经到来。
数字经济时代,数据已成为核心生产要素。目前,我国现行法律尚未对数据权属作出直接规定,《民法典》第一百二十七条仅作宣示性规定。法律的滞后性导致数据权属不清与利益分配失衡矛盾凸显。基于此,本文将基于现有法律框架对各类数据权属进行详细探讨,以期在国家颁布相关专项法律法规前,为各类主体合规使用和交易数据的活动提供参考。
二、现有法律框架下数据权属法律分析
当前我国数据权属的法律规定呈现“原则性框架为主、分类探索并行”的特征,尚未形成统一确权规则,但已通过“中央立法+政策文件+地方试点”搭建起制度雏形。具体如下:
(一)基础性法律确立原则框架
《民法典》第一百二十七条将数据纳入民事权利客体,首次在私法层面确认数据权益的民事属性,通过开放性的民事权益体系为后续制度建构提供上位法依据。
《数据安全法》强调国家数据主权与分类分级保护,明确数据安全作为权属界定的前提,具体包括:(1)数据分类分级管理制度:依据数据对国家安全、公共利益的影响程度,将数据划分为一般数据、重要数据和国家核心数据。其中“国家核心数据”首次明确为涵盖国民经济命脉、重大公共利益等领域的数据,实行最高级别管控;(2)全生命周期防护体系:通过重要数据目录动态管理、跨境流动安全审查(如要求关键信息基础设施运营者境内存储重要数据),以及高额罚款的威慑性责任体系,实现数据安全从静态管控向动态风险治理转型。
《个人信息保护法》则聚焦个人数据的人格权属性,通过知情权、删除权等制度构建个人数据权益保护体系,具体包括:(1)知情同意机制:要求数据处理者以“显著方式、清晰易懂的语言”履行告知义务,并通过单独同意规则强化敏感信息(如生物识别、行踪轨迹)处理限制;(2)全链条权益保障:赋予个人更正权(针对不准确信息)、删除权及可携带权(跨平台数据迁移),形成“事前同意—事中控制—事后救济”的闭环体系;(3)未成年群体保护:对未成年人信息实施“双重同意”机制,要求处理不满十四周岁儿童信息需取得监护人同意并采取适龄保护措施。
(二)政策性文件提供指引
为促进数据作为关键生产要素的管理及流通使用,2022年12月19日,中国政府网公布《中共中央 国务院关于构建数据基础制度更好发挥数据要素作用的意见》(下称“《数据二十条》”)。《数据二十条》是国家关于发展数字经济和数据领域产业、构建数据相关基础制度的重要指导性文件,为中国数字经济和数据领域产业未来的发展举旗定向。
在数据产权方面,《数据二十条》提出推进公共数据、企业数据、个人数据分类分级确权授权,建立数据资源持有权、数据加工使用权、数据产品经营权等“三权分置”产权运行机制。但《数据二十条》并未明确“三权”的具体内涵,参考有关专家对“三权”的解读,以及地方文件的相关表述,“三权”可以表述为:
(1)“数据资源持有权”: 权利人基于合法取得、合法控制管理,依法享有的非排他性使用权;其以非独占性为核心,允许他人通过合法途径获取相同或近似数据(如从同一数据源采集),其权利依附于动态控制状态,避免因数据垄断阻碍社会化流通。权利人可以通过管理、传输等方式控制数据资源,排除他人干涉。其并不等同于传统意义上的产权,因为数据具有持续生产、组合和汇集的特性,且对事实数据的获取和使用没有独占性。
(2)“数据加工使用权”:权利人基于数据资源持有权或者基于交易、流通等合同约定对数据进行实质性加工或者创新性劳动,形成数据产品并实现价值的权利,其目标是实现数据资源的资产化。数据加工使用权包含加工权能和使用权能。数据加工是指对已经采集的数据按照拟定的数据加工模型和算法进行汇总、计算、分析及数字化处理的过程,是将原始数据转变为衍生数据的必要步骤。数据使用主要指对数据进行分析、利用等活动。数据加工使用权的行使应当在数据加工使用者依法获取数据的前提下进行。
(3)“数据产品经营权”:权利人对合法处理数据形成的数据产品和服务,依法获得的自主经营、取得收益的权利。权利人对其数据产品依法占有、使用、收益和依法支配的权利。数据产品主要指通过对数据资源投入实质性加工和创新性劳动形成的数据和数据衍生产品。
(三)地方立法开展差异化探索
我国地方数据立法以“三权分置”为核心逻辑,通过差异化制度设计,回应数据要素市场化需求。
深圳市率先颁布《深圳经济特区数据条例》,首次确立数据权益二元结构:自然人对其个人信息享有人格权益,市场主体对合法加工形成的数据产品享有财产权益。该条例不仅规范数据交易规则,还提出公共数据全面共享制度,要求建立数据资源目录与分级开放机制。
上海市在《上海市数据条例》中提出动态权益配置模式,在不直接界定数据所有权的前提下,区分个人数据的人格属性与数据处理者的财产属性。其核心突破在于设立上海数据交易所,探索数据产品经营权与收益分配规则,并通过浦东新区试点跨境数据流动制度,推动国际数据港建设。
浙江省通过《浙江省公共数据条例》构建数据资源与数据产品分类登记体系,对经过实质性加工的数据产品赋予独立财产地位,支持质押融资与资产入表,同时建立公共数据开放负面清单,细化有条件开放数据的处理规则。
广东省在《广东省数据要素市场化配置改革行动方案》中首创行政主导的一级市场与市场化竞争的二级市场双轨并行机制,探索公共数据资产凭证体系,通过登记、授权、流通全周期管理,明确数据权属与收益分配规则。
三、训练数据权属分配及合规使用建议
自数据成为重要的生产要素以来,为便于数据管理和流通使用,对各类数据的分级分类管理已成为各国共识。2020年以来,我国国家及地方层面分别制定了各类数据分级分类管理相关的国家/地方标准,从不同维度对数据进行分级分类。
《数据安全技术 数据分类分级规则》(GB/T43697-2024)中规定:“根据数据在经济社会发展中的重要程度,以及一旦遭到泄露、篡改、损毁或者非法获取、非法使用、非法共享,对国家安全、经济运行、社会秩序、公共利益、组织权益、个人权益造成的危害程度,将数据从高到低分为核心数据、重要数据、一般数据三个级别。”此外,数据可从多个维度进行分类,包括但不限于:行业领域、数据主体、数据来源、描述对象、加工程度等维度。
基于上述,数据可以从不同维度划分出多种类别。为便于数据流通及使用环节的实践应用,本文结合相关项目经验,从市场主体获取数据的不同方式出发分类讨论各类训练数据权属分配及合规使用相关问题。
(一)自有数据
自有数据系指由数据生产者通过自主行为直接记录、创造、生成、采集或加工形成,并依法享有完整权属的数据资源。数据生产者的主体类型包括个人、企业或机构等拥有独立民事权利能力的各类主体。
数据生产者作为数据产生的源头,对数据享有何种权益,是构建数据权益体系的基础问题。法研社认为,数据生产者自数据产生之日起即享有该等数据的初始数据权利(下称“初始数据权利”),即数据的全部财产性数据权利(包括数据资源持有权、加工使用权、数据产品经营权及前述权利的转授权等)与非财产性数据权利(包括署名权、知情权、个人信息中的人格权、撤回权等)。后续交易流转中,数据生产者主要让渡的范围均为财产性数据权利,非财产性数据权利归初始数据权利人所有。具体而言,本文将进一步厘清:(1)如何确定某项数据的数据生产者;(2)各类数据生产者之间自有数据的权利边界。
1、数据生产者及其自有数据
数据生产者生产数据的方式,包括记录、创造、生成、采集或加工等。为便于区分不同情形下的数据生产者,本文按照参与主体在数据生成过程中的不同分工,将参与主体分为:数据来源者、数据采集经营者、数据加工处理者。接下来,本文将分别探讨上述不同主体作为数据生产者的具体情形。
(1)数据来源者(又称“数据主体”)
数据来源者系指数据的原始生成主体,直接产生或提供数据的自然人、实体或设备所有者。其中,生成行为系指通过主动行为(如用户发布内容)或被动记录(如传感器监测)产生数据。
法研社认为,数据来源者拥有其生成的原始数据的初始数据权利,是该等原始数据的数据生产者。上述生成的原始数据系数据来源者的自有数据。
(2)数据采集经营者
数据采集经营者系指专业化从事数据采集经营活动,通过技术手段或协议获取数据来源者数据并提供数据交易、共享、许可或相关增值服务的实体,负责数据的初步管理、收集、存储、有限处理及交易。数据获取方式包括:主动抓取(如网络爬虫)、协议授权(如APP用户协议)、设备采集(如IoT传感器)。
数据采集经营者汇集不同数据来源者的多项原始数据形成的数据集,由于数据采集者在采集过程中需取得不同来源数据的合法权利,付出了较多的劳动,且该等数据集的范围已远超单项原始数据记载的信息范围,法研社认为,数据采集经营者拥有该等数据集的初始数据权利,是该等数据集的数据生产者。上述数据集系数据采集经营者的自有数据。
为免歧义,需明确数据采集经营者作为数据集的数据生产者的前提条件是,数据经营者已依法获得数据集使用范围内所需的各项原始数据的数据资源持有权、加工使用权、数据产品经营权、转授权等全部财产性数据权利。
(3)数据加工使用者
数据加工使用者系指对原始数据进行清洗、分析、标注或计算等加工使用,生成衍生数据或模型的实体。上述加工使用行为包括去噪、聚合(如生成统计报表)、特征提取(如NLP文本向量化)、模型训练等。其中,衍生数据系指通过各类技术手段对原始数据进行加工处理后形成的新数据集或信息形态(如特征向量、统计报表、知识图谱等)、且无法通过反向工程等技术手段直接还原原始数据细节的数据。
数据加工使用者在加工使用过程中生成的衍生数据或模型,凝结了数据生产使用者大量创造性劳动及创新性技术,且该等衍生数据及模型无法通过技术手段还原为原始数据,该等数据与原始数据属于完全不同的数据,仅在某些维度存在一定的关联性。因此,数据加工使用者拥有衍生数据/模型的初始数据权利,是该等衍生数据/模型的数据生产者。上述衍生数据/模型系数据加工使用者的自有数据。同样的,数据加工使用者作为衍生数据/模型的数据生产者的前提条件是,数据加工使用者已依法取得数据来源者及/或数据采集经营者在其加工处理范围内的合法授权。
但需注意,数据来源者及/或数据采集经营者提供的原始数据参与了衍生数据/模型的生产过程,数据来源者及/或数据采集经营者是否享有衍生数据/模型部分权利,是否可以要求分享衍生数据/模型产生的相关收益,均暂无明确法律规定及案例判决指引。因此,笔者建议,数据加工使用者使用数据前,在与数据来源者及/或数据采集经营者(根据具体数据来源情况确定主体)签署的相关数据授权/交易合同中,明确约定其生成的衍生数据/模型的数据权利归数据加工使用者单独所有,原始数据提供方放弃其对衍生数据的权利主张;衍生数据/模型所得收益分配情况根据双方协商情况进行明确约定。
2、各类数据生产者自有数据的权利边界
基于上文,法研社认为,不同数据生产者自有数据的范围及权利边界,可按以下方式进行初步界定:
数据生产者身份 | 自有数据范围 | 权利边界 |
数据来源者 | 直接生成的原始数据 | 确保其原始数据不侵犯第三方权益 |
数据采集经营者 | 数据集 | 需取得数据来源者的完整授权,且不得侵犯原始数据的在先权利 |
数据加工使用者 | 衍生数据/模型 | 需与数据来源者及/或数据采集经营者通过协议明确约定授权范围、权利归属及权益分配,且不得侵犯原始数据及数据集的在先权利 |
上述各项自有数据中涉及落入我国现有知识产权保护、商业秘密及不正当竞争保护权益范畴的,相关主体除享有数据权益外,还同时享有该等数据的知识产权权益、商业秘密权益及不正当竞争保护权益。此外,若自有数据中涉及他人敏感个人信息、重要数据及核心数据的,相应数据生产者享有的数据权利应受到《个人信息保护法》《数据安全法》等相关法律法规及监管部门使用及交易要求的限制。
3、自有数据的合规使用建议
基于上述,法研社结合实际经验,就从事AI模型训练的市场经营主体合规使用自有数据提出相关建议,具体如下:
(1)对自有数据进行分类管理。各类数据参与主体在数据生成、加工使用、交易等活动中,如果发现可能危害国家安全、公共安全、经济安全、社会稳定和个人隐私的数据,应立即停止相关活动,在依法履行相应批准及/或授权程序后方可进行。
(2)加强自有数据使用范围限制,包括:确保内部人员访问权限最小化,记录操作日志以备审计;若需对外提供自有数据,应签订数据共享协议,明确用途限制(如禁止转售)、安全责任(如加密传输)。
(3)采取技术防护措施,包括:采用数据加密(静态/传输中加密)、脱敏处理(如替换关键字段)及访问控制(如IP白名单),定期开展渗透测试和合规审计,防范内部泄露风险。
(二)授权数据
1、数据授权及授权数据的权属分配
目前,通过数据授权及数据交易方式获得数据资源,已经成为目前AI训练数据的主要来源之一,尤其是在各种垂类AI模型训练中,训练数据大量来源于各组织、个人的内部自有数据。
关于数据授权,《数据二十条》提出了公共数据、企业数据、个人数据分类分级授权的相关指导意见,具体如下:
(1)公共数据:鼓励公共数据在保护个人隐私和确保公共安全的前提下,按照“原始数据不出域、数据可用不可见”的要求,以模型、核验等产品和服务等形式向社会提供,对不承载个人信息和不影响公共安全的公共数据,推动按用途加大供给使用范围。推动用于公共治理、公益事业的公共数据有条件无偿使用,探索用于产业发展、行业发展的公共数据有条件有偿使用。依法依规予以保密的公共数据不予开放,严格管控未依法依规公开的原始公共数据直接进入市场,保障公共数据供给使用的公共利益。
(2)企业数据:对各类市场主体在生产经营活动中采集加工的不涉及个人信息和公共利益的数据,市场主体享有依法依规持有、使用、获取收益的权益。政府部门履职可依法依规获取相关企业和机构数据,但须约定并严格遵守使用限制要求。
(3)个人数据:对承载个人信息的数据,推动数据处理者按照个人授权范围依法依规采集、持有、托管和使用数据,规范对个人信息的处理活动,不得采取“一揽子授权”、强制同意等方式过度收集个人信息,促进个人信息合理利用。对涉及国家安全的特殊个人信息数据,可依法依规授权有关单位使用。创新技术手段,推动个人信息匿名化处理,保障使用个人信息数据时的信息安全和个人隐私。
在授权方依法享有数据权利且符合上述《数据二十条》关于各类数据授权指导意见的情况下,授权方均有权将其自有数据,依法授权给合格市场主体加工使用。授权方与被授权方依据双方签署的数据授权/交易合同约定,划分授权方及被授权方享有的授权数据权利类型及范围等权利归属及权益分配。但若授权数据中涉及他人敏感个人信息、重要数据及核心数据的,各方享有的相应数据权利应受到《个人信息保护法》《数据安全法》等相关法律法规及监管部门使用及交易要求的限制。
此外,需要提醒注意的是,使用授权数据时,虽然授权方对数据来源的合法合规负主要责任,但被授权方作为使用者亦需承担部分审查责任。若授权数据中存在侵犯第三方知识产权、商业秘密、个人信息权益、不正当竞争权益等情况,被授权方仍存在承担部分连带赔偿或补充赔偿责任的风险。
2、授权数据的合规使用建议
基于上述,法研社结合实际经验,就从事AI模型训练的市场经营主体合规使用授权数据提出相关建议,具体如下:
(1)在使用授权数据时,严格审查授权方的合法性,确保其具备合法的数据采集和处理资质,同时,还需要求授权方提供数据来源的详细说明和授权证明,确保数据的合法性。
(2)完善数据授权/交易合同条款,包括:明确数据的授权使用范围、场景、地域(如“禁止跨境传输”)、失效(如“有效期至2025年12月31日”)等;明确衍生数据/模型的权利归属及权益分配。
(3)加强数据的合规使用,包括:禁止超范围使用,如授权数据含个人信息,不得用于用户未同意的目的(如营销推送);若需二次加工,确保达到《个人信息保护法》规定的匿名化标准(无法识别个人身份)。
(4)设置风险隔离措施,包括:授权数据与自有数据分库管理,防止混用导致权属模糊;协议到期或解除后,彻底删除或返还数据,保留销毁证明。
(三)公域数据
1、公域数据的概念
公域数据系指不受版权限制或已明确开放许可的数据,允许任何人自由使用、修改、分发,无需授权或付费。其特点包括:(1)开放许可:遵循CC0、MIT等允许自由使用的协议;(2)可访问性:通常通过公共平台或数据库提供;(3)多样性:涵盖文本、图像、音频、政府数据等多种类型。公域数据不同于《数据安全技术 数据分类分级规则》(GB/T43697-2024)中基于数据主体分类中的公共数据,公域数据的数据主体可以政务部门、企业组织,也可以是个人。
当前常用的AI训练公域数据库包括但不限于:计算机视觉领域的ImageNet 、COCO、Open Images Dataset,自然语言处理领域的维基百科语料库、Common Crawl、BookCorpus,多模态与跨领域的Kaggle数据集、Google Dataset Search,政府公开数据中的美国 Data.gov、欧盟 Eurostat、中国国家统计局。
2、公域数据的权属分配
公域数据库的数据来源广泛且多样化,主要包括:(1)机构、组织或个人主动开放共享数据;(2)通过技术手段合法抓取公开网页数据;(3)通过志愿者或付费标注员对原始数据(如图像、文本)进行标注后的数据。
在现有法律框架下,法研社认为,使用者均可通过公域数据库适用的各类允许自由使用协议约定,无偿获得公域数据的全部或部分财产性数据权利(具体需根据自由使用协议约定进行确定)。但若公域数据中涉及他人敏感个人信息、重要数据及核心数据的,使用者享有的相应数据权利应受到《个人信息保护法》《数据安全法》等相关法律法规及监管部门使用及交易要求的限制。
此外,需要注意的是,使用公域数据生成的衍生数据/模型的权利归属及权益分配,可能受到自由使用协议中特殊条款的部分限制。笔者建议,各类主体使用公域数据前,仔细阅读该公域数据库使用的自由使用协议的具体条款,并根据该等条款约定制定相应策略以规避数据权属及权益分配风险。
3、公域数据的合规使用
基于上述,法研社结合实际经验,就从事AI模型训练的市场经营主体合规使用公域数据提出相关建议,具体如下:
(1)开展来源合法性核查,包括:验证许可协议,确认公域数据遵循CC0、MIT等允许商用的开放协议,避免使用仅限非商业用途的数据(如部分CC BY-NC数据集);关注政府数据合规要求,遵循政府数据平台的使用条款(如美国Data.gov要求注明数据来源)。
(2)加强隐私与伦理审查,包括:个人信息筛查,即使数据标注为“公开”,若含未脱敏个人信息(如社交媒体公开帖中的电话号码),需进行匿名化处理;避免数据滥用,不得将公域数据用于歧视性算法训练(如基于公开犯罪数据的地域歧视模型)。
(3)确保技术性合规,包括:反爬虫合规,即若通过爬虫获取公域数据(如公开网页信息),需遵守Robots协议及《反不正当竞争法》第十二条(禁止干扰网站正常运行);数据标注留存:记录数据来源链接、采集时间及处理方式,应对未来权属争议。
四、结语
当前我国法律制度对数据权属及相关权利/权益分配等核心议题的规范框架尚不完善,本文提出的分析意见及应对策略,实质是在现行法律框架下的权宜之策。展望未来,我国在推进数据权属法律体系建设时,亟需通过立法技术创新,在个人信息保护、企业数据权益及公共数据开放三者之间构建动态平衡机制。建议以制度型开放为导向,在确立数据安全基准线的同时,探索构建包容审慎的数据治理生态,使技术创新带来的效率提升与权利主体的正当诉求形成有机协同,最终实现数据要素市场活力与治理效能的双重提升。