摘要:数据标注作为数据处理的重要环节,是高质量算法构建与智能系统部署的基础。随着人工智能应用的发展,标注质量、数据合规及责任划分问题日益突出。本文在梳理数据标注相关法律法规及行业规范基础上,系统分析模型训练方与数据标注服务商之间的权责边界,明确双方权利义务及常见权利义务条款约定,进一步讨论特殊场景下数据标注合同权责划分安排,以期为行业实践提供参考。
关键词:数据标注;模型训练方;标注服务商;权利义务;责任划分
一、数据标注产业概览
数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业,2024年12月,国家发展改革委等四部门发布《关于促进数据标注产业高质量发展的实施意见》,其中提出,到2027年,数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。
人工智能的蓬勃发展离不开高质量数据的支撑,而数据标注是将原始数据进行处理后转化为机器可理解信息的关键环节。据国家数据局发布最新信息,当前我国七个数据标注基地数据标注总规模达到17,282TB,相当于中国国家图书馆数字资源总量的6倍左右,目前已形成医疗、工业、教育等行业的高质量数据集335个,赋能121个国产人工智能大模型研发。
根据中国信通院发布的“人工智能数据标注产业图谱”,在人工智能数据标注产业链中,上游资源提供方提供原始数据,同时也是数据标注业务的场景赋能对象,中游数据标注服务提供方(以下简称“数据标注服务商”)提供数据标注服务、交易服务和人力服务,标注处理后的数据最终应用于人工智能大模型的预训练、监督微调等过程。在人工智能产业发展愈发壮大的背景下,本文拟探讨数据标注阶段,数据标注服务商在向数据使用方(即人工智能大模型训练方,以下简称“模型训练方”)提供标注服务时的权利义务边界,为数据标注服务商的展业提供合规指引。
二、数据标注的流程及分类
(一)数据标注的流程
数据标注是指通过人工操作或使用自动化技术机制,基于对提示信息的响应信息内容,将特定信息如标签、类别或属性添加到文本、图片、音频、视频或者其他数据样本,并生成满足机器学习训练要求的机器可读数据编码的过程,是提升人工智能算法、模型核心能力的关键环节,数据标注活动的准确与否直接影响到模型的理解和泛化能力。数据标注业务流程如下:
图1 数据标注业务流程
(二)数据标注的分类
数据标注业务以标注对象作为分类标准,可分为图像标注、语音标注、文本标注以及视频标注,具体如下:
数据标注分类 | 概述 |
图像标注 | 图像标注类型包括拉框、语义分割、实例分割、目标检测、图像分类、关键点、线段标注、文字识别转写、点云标注、属性判断等。图像标注在人工智能与各行各业应用相结合的研究过程中扮演着重要的角色。 |
语音标注 | 语音标注类型包括ASR语音转写、语音切割、语音清洗、情绪判定、声纹识别、音素标注、韵律标注、发音校对等。 |
文本标注 | 文本标注是对文本进行特征标记,为其打上具体的语义、构成、语境、目的、情感等原数据标签,主要用于自然语言处理。通过语句分词标注、语义判定标注、文本翻译标注、情感色彩标注、拼音标注、多音字标注、数字符号标注等,可获得高准确率的文本语料。 |
视频标注 | 视频标注以图片帧为单位,对视频素材中的目标对象进行跟踪,对包括道路、车辆、行人等在内的目标物的特征信息、结构信息、语义信息等进行标记,从而形成训练数据集。按照具体应用类型,视频标注可进一步划分为视频追踪、标签分类、视频打点以及视频信息提取。 |
传统数据标注以人工为主,进入大模型时代,企业面对数据指数级增长及非结构化的包围,其标注成本和效率往往达不到平衡,故而市场上也出现了自动化数据标注平台,以标注方式作为分类标准,数据标注业务可分为手动标注、半自动标注及自动标注,具体如下:
标注方式 | 手动标注 | 半自动标注 | 自动标注 |
具体做法 | 人工操作,依赖标注员 | 机器初步标注,人工修正 | 完全由机器自动完成 |
精度 | 高,适合复杂和精细任务 | 较高,依赖机器初步结果 | 取决于模型和算法质量 |
效率 | 低,适合小规模数据 | 较高,结合机器和人工优势 | 高,适合大规模数据处理 |
成本 | 高,需要大量人力和时间 | 中等,减少人工工作量 | 低,减少人力和时间成本 |
应用场景 | 高精度要求,如医疗影像 | 大规模数据,精度要求适中 | 大规模数据,精度要求相对较低 |
三、数据标注交易双方的权责分析
为明确数据标注交易双方(即模型训练方与标注服务商)之间的权利义务,法研社系统梳理了现行法律法规体系、国家标准相关规定,并参考《数据委托处理合同(示范文本)(征求意见稿)》及实践中其他数据标注服务协议内容,经整理确定双方权利义务的核心内容如下:
(一)交易双方法定义务及国家标准要求
1、适用法律、法规、规章及国家标准
序号 | 发文部门 | 文件名称 | 文号 | 发布日期 | 实施日期 | 备注 |
1 | 全国人民代表大会常务委员会 | 《中华人民共和国个人信息保护法》 | 主席令第九十一号 | 2021.08.20 | 2021.11.01 | 规范个人信息处理活动,保护个人信息权益 |
2 | 《中华人民共和国数据安全法》 | 主席令第八十四号 | 2021.06.10 | 2021.09.01 | 规范数据处理活动,保障数据安全 | |
3 | 《中华人民共和国网络安全法》 | 主席令第五十三号 | 2016.11.07 | 2017.06.01 | 规范网络空间安全管理,保障网络安全(正在就修正草案征求意见) | |
4 | 国务院 | 《网络数据安全管理条例》 | 中华人民共和国国务院令第790号 | 2024.09.24 | 2025.01.01 | 规范网络数据处理活动,保障数据安全 |
5 | 国家发展和改革委员会,国家数据局,财政部,人力资源和社会保障部 | 《国家发展改革委等部门关于促进数据标注产业高质量发展的实施意见》 | 发改数据〔2024〕1822号 | 2024.12.26 | 2024.12.26 | 为促进数据标注产业高质量发展提出意见 |
6 | 国家互联网信息办公室 | 《生成式人工智能服务管理暂行办法》 | 国家互联网信息办公室令第15号 | 2023.07.10 | 2023.08.15 | 约定生成式人工智能服务提供者应当制定标注规则、抽样核验标注内容、监督指导标注人员 |
7 | 全国网络安全标准化技术委员会 | 《生成式人工智能服务安全基本要求》 | - | 2024.02.29 | 2024.03.01 | 约定语料标注安全要求 |
8 | 全国标准信息公共服务平台 | 《信息安全技术 生成式人工智能数据标注安全规范》 | - | - | - | 规定生成式人工智能训练的数据标注基础安全要求等(尚在征求意见阶段) |
9 | 《人工智能 面向机器学习的数据标注规程》 | GB/T 42755-2023 | 2023.05.23 | 2023.12.01 | 规定人工智能领域面向机器学习的数据标注框架流程 |
2、法定义务及国家标准要求
(1)模型训练方
经查阅上述清单内文件,现行法律法规中,仅有《生成式人工智能服务管理暂行办法》对生成式人工智能服务提供者(即模型训练方)在生成式人工智能技术研发过程中进行数据标注时的义务有明确规定,包括:1)应当制定符合本办法要求的清晰、具体、可操作的标注规则;2)开展数据标注质量评估,抽样核验标注内容的准确性;3)对标注人员进行必要培训,提升遵法守法意识,监督指导标注人员规范开展标注工作。而《生成式人工智能服务安全基本要求》作为针对《生成式人工智能服务管理暂行办法》的细化要求,在“5.3 语料标注安全要求”项下对生成式人工智能服务提供者(即模型训练方)进一步提出如下要求:
事项 | 具体要求 |
标注人员 | 1.应自行组织对于标注人员的安全培训; 2.应自行对标注人员进行考核,给予合格者标注上岗资格; 3.应将标注人员职能至少划分为数据标注、数据审核等;同一标注任务下, 同一标注人员不应承担多项职能; 4.应为标注人员执行每项标注任务预留充足、合理的标注时间。 |
标注规则 | 1.标注规则应至少包括标注目标、数据格式、标注方法、质量指标等内容; 2.应对功能性标注以及安全性标注分别制定标注规则,标注规则应至少覆盖数据标注以及数据审核等环节; 3.功能性标注规则应能指导标注人员按照特定领域特点生产具备真实性、准确性、客观性、多样性的标注语料; 4.安全性标注规则应能指导标注人员围绕语料及生成内容的主要安全风险进行标注。 |
标注内容 | 1.对功能性标注,应对每一批标注语料进行人工抽检,发现内容不准确的,应重新标注;发现内容中包含违法不良信息的,该批次标注语料应作废; 2.对安全性标注,每一条标注语料至少经由一名审核人员审核通过。 |
其他 | 宜对安全性标注数据进行隔离存储。 |
(2)标注服务商
对数据标注服务商而言,现行法律法规并未对其义务有明确规定,但在《信息安全技术 生成式人工智能数据标注安全规范》(当前尚在征求意见阶段)这一国家标准中,定义了“数据标注方:组织数据标注人员开展数据标注活动、对标注质量有直接责任的人员或机构。”并规定了针对数据标注方在生成式人工智能数据标注安全方面的相关要求,包括:1)数据标注基础安全要求:针对数据安全、标注工具安全、访问控制和数据传输提出安全要求;2)数据标注规则安全要求:针对数据标注方制定生成式人工智能数据标注规则提出安全要求;3)标注人员要求:针对标注人员在培训、选拔和管理等方面提出安全要求;4)数据标注核验要求:针对生成式人工智能数据标注核验提出安全要求。
据此,数据标注服务在提供标注服务时,可比照后续批准生效的《信息安全技术 生成式人工智能数据标注安全规范》履行义务,但鉴于上述标准并非强制性国家标准且尚未正式实施,若模型训练方拟要求数据标注服务商承担相应义务的,法研社建议双方明确约定数据标注服务商应遵守上述《信息安全技术 生成式人工智能数据标注安全规范》的相关规定。
(二)交易双方常见约定权利义务
1、数据标注合同性质分析
经法研社查询,“北大法宝”案例库中收录的与“数据标注”合同有关的诉讼案件共22件,其中,案由为“服务合同纠纷案件”20件,“承揽合同纠纷案件”1件,“技术服务合同纠纷案件”1件。但《中华人民共和国民法典》在“合同编”中并未将服务合同纳入有名合同的范畴,服务合同在性质判断上与承揽合同、委托合同等存在一定的模糊和交叉之处,属于“混合型合同”。经进一步参考国家数据局发布的《数据委托处理合同(示范文本)(征求意见稿)》,该示范文本以委托合同为基础,约定乙方作为受托方接受甲方委托,通过“数据标注”加工形成结果数据,同时引入了承揽合同的相关条款,明确结果数据的交付和验收标准,属于“混合型合同”。有鉴于上,法研社认为数据标注合同的性质更倾向于混合型合同,双方的主要权利义务、交付验收、服务成果归属、合同解除等条款均主要有赖于双方自行约定。
2、常见权责划分约定条款
参考国家数据局发布的《数据委托处理合同(示范文本)(征求意见稿)》及实践中其他数据标注服务协议,模型训练方与数据标注服务商的常见权利义务约定具体如下:
分类维度 | 模型训练方主要权利义务 | 数据标注服务商主要权利义务 | 备注 |
标注内容及质量要求 | 明确标注内容和标注质量标准,亦可约定适用的国家及行业标准要求。 | 按照委托方的指示和要求进行数据处理活动。 | 双方应明确具体数据形式、数据规模、标注规则、标注内容、相关术语、标注质量(包括但不限于:标注样例、标注要素、标注精确度、特殊情况、指标计算方式)等内容。 |
数据交付及验收 | 明确数据交付方式及验收标准,以及数据质量瑕疵的处理方式(补足/据实结算/违约责任/解除合同)。 | 按照双方明确的数据标注质量标准进行数据标注;并按照约定内容交付和完成成果验收。 | 为确保交付验收的顺利进行,双方应明确具体交付方式、交付时间、验收流程等内容。 |
收费及费用支付 | 明确约定收费标准及支付时间,并按照合同约定支付相应费用。 | 依约收取相应费用。 | 可根据实际需要,约定里程碑付款。 |
数据来源及处理合规 | 确保数据来源合法合规,明确模型训练方在收集相关数据时遵循合法、正当、必要的原则,并确保相关数据可用于本合同之目的,已取得相关权利人的合法授权,不侵犯任何第三方的合法权益。 | 明确标注服务商处理数据的行为不侵犯任何第三方合法权益,不得超范围使用数据(包括不得擅自修改、复制或篡改数据,向未经授权的第三方披露或转让数据)。 | 若原始数据中涉及个人信息的,则双方还应当履行个人信息保护义务,且数据服务商应在个人信息受托处理事项执行完毕后,及时删除相关个人信息。 |
数据安全要求 | - | 1. 明确标注服务商应采取的具体数据安全措施,可将安全要求列成附件或条款清单,包括人员资格、场地要求、技术手段等。例如:“标注服务商应在符合国家等级保护三级标准的网络环境中处理模型训练方数据,未经模型训练方书面同意不得将数据迁移至其他系统”等。 2. 明确数据泄露或安全事件发生时的响应义务,约定标注服务商应在规定时限内(如24小时)通知模型训练方,立即启动补救措施,同时配合模型训练方进行调查和向主管部门报告(如需)。 | - |
数据销毁与返还 | - | 委托处理期限届满或合同终止后,通常应及时销毁或返还委托处理所涉的全部数据(包括原始数据及委托处理过程产生的过程数据、结果数据等)及其副本。 | 数据标注服务商同时也无义务保留数据,可通过协议进一步明确,模型训练方应自行妥善保留标注成果。 |
与大模型相关义务 | 详见本文“三、模型训练方与标注服务商的权责划分”之“(一)交易双方法定义务及国家标准要求”之“2、法定义务及国家标准要求”。 | 标注服务商可主张在合同中加入免责声明条款,声明其提供的服务仅涉及对数据进行标记处理,不对模型训练方后续利用该数据训练模型或模型输出的结果承担任何法律责任,即不对模型最终性能或输出的合法性作任何保证。但该免责声明通常会附例外,如因服务商违反标注规范或其他合同义务,直接导致模型输出违法内容的,不适用免责。 | 可通过协议进一步明确,模型训练方应就其利用标注成果进行生成式人工智能大模型研发、调优及后续开发上线自行取得有关部门许可或批准。 |
知识产权及商业秘密保护 | 1. 享有标注成果的所有权及对应知识产权; 2. 确保不侵犯对方知识产权及商业秘密。 | 1. 通常不得对标注成果主张知识产权; 2. 确保不侵犯对方知识产权及商业秘密。 | - |
转委托 | 1. 可约定对转委托行为享有同意权; 2. 可要求提供分包商合规证明文件。 | 1. 转委托通常须取得书面同意; 2. 通常需对分包商行为承担连带责任。 | - |
违约责任 | 逾期付款违约责任。 | 1. 逾期交付违约责任; 2. 质量违约责任:标注服务商提交成果的合格率低于某阈值,模型训练方有权要求合同款项按比例下调或标注服务商支付违约金; 3. 数据泄露违约责任:可约定按次数据泄露支付违约金,情节严重的,模型训练方有权解除合同并要求支付一次性违约金。 | - |
标注错误赔偿责任 | 因数据来源合规/数据源缺陷导致标注错误,通常应承担相应赔偿责任。 | 因未达到约定质量标准导致损失,通常应承担相应赔偿责任。(可约定赔偿责任上限) | - |
四、特殊场景下交易双方的权责分析
基于上述权责划分和常见权利义务约定条款,法研社结合实务经验,进一步就特殊场景下数据标注交易双方权责分配提出分析及建议如下:
(一)众包标注模式
有些数据标注服务商会通过众包平台或兼职人群完成大量简单标注任务,对此,合同中应特别约定数据标注服务商在众包情况下的管理要求、保密机制与质量责任:
1、未经同意不得再分包:明确数据标注服务商不得未经模型训练方书面许可将标注任务以众包或任何形式分包给第三方个人或组织。如果允许众包,应限定仅可通过数据标注服务商自有平台或可靠合作平台,且数据标注服务商对众包人员的行为承担完全责任。
2、众包人员保密要求:数据标注服务商应确保所有参与众包的人员签署与主合同一致的保密协议,并接受相应的安全培训与管理。同时,应将众包人员名单及其基本资质向模型训练方报备。模型训练方有权拒绝敏感数据的众包处理,明确仅由服务商正式员工处理敏感数据,众包人员仅限于非敏感部分,以控制泄露风险。
3、质量与进度管控:鉴于众包模式可能导致质量不一与进度不稳,合同可要求数据标注服务商对众包成果进行全量复核,或采用“双标注”等交叉验证机制以确保质量。同时,应设置明确的任务时限与绩效考核机制,防止因众包延误整体进度。
4、责任不减:合同应明确,即使采用众包方式,数据标注服务商对模型训练方仍负有与亲自履行相同的合同义务与法律责任,众包人员的过失视为服务商自身行为,服务商不得以“人员失误”或“外包不可控”为由规避违约责任,确保责任统一归属。
(二)自动化辅助标注
一些数据标注服务商利用机器学习模型、算法对数据进行初步标注(预标注),再由人工校对,以提高效率。此种情形下,数据标注服务商应提前告知技术方案、保证质量与数据安全:
1、告知技术方案:合同应明确数据标注服务商如拟使用自动化辅助工具,应事前向模型训练方披露相关信息,包括工具的来源、运行方式(如本地运行或调用云端API)及潜在风险。若工具涉及将数据传输至第三方接口,须经模型训练方明确书面同意,并确保不违反数据出境、安全及合规要求。未经许可,不得擅自使用涉及数据外传的自动化工具。
2、明确质量责任:无论是否采用自动化辅助手段,数据标注服务商均应对交付成果的质量承担完全责任,不得以“机器标注失误”等为免责依据。自动化工具仅属其内部作业方式,不影响其对结果质量的合同义务。合同可明确约定:“数据标注服务商可自行选择是否使用自动化工具提升效率,但其交付成果须符合本合同约定的质量标准,若未达标,服务商应承担相应违约责任。”
3、保证数据安全:如果使用自动化工具可能引入新的数据安全风险(例如上传数据到第三方平台进行处理),合同应明确禁止未经模型训练方许可将数据提供给任何第三方进行标注,数据标注服务商如使用自己开发的人工智能模型,也应确保模型的输出和存储不会泄露原始数据。
(三)高风险行业数据标注
若标注任务涉及高风险行业(如医疗、金融、自动驾驶等),合同应根据行业特性增加专业资质、安全环境与更高质量要求:
1、医疗数据标注:医疗健康数据属于敏感个人信息,标注者往往需要专业背景。合同可要求数据标注服务商配备具有医疗知识的标注人员或有医生顾问把关,以确保标注准确专业。例如标注医学影像,可能要求数据标注服务商组织有执业医师资格的人参与审核结果。
2、金融数据标注:涉及金融信息的标注需要符合金融监管的数据安全要求,需在高度安全的专用环境中进行,不得接入外部网络。数据标注服务商应建立信息内容审核和安全保障制度,同时强调个人金融信息的保护和数据留痕管理,必要时应采用匿名化或仅标注泛化信息。
3、自动驾驶数据标注:自动驾驶数据标注涉及行人、车辆、交通标识等信息,包含大量公众场景下的个人信息,且与交通安全直接相关,需满足极高精度标准,并符合交通运输等相关法规要求。合同应设定严于一般项目的质量指标(如接近100%准确率),并明确责任边界。