摘要:随着人工智能技术的快速发展,数据爬取作为获取训练素材的核心手段,其合法性边界与责任认定问题日益凸显。结合司法实践与立法动态,系统分析数据爬取在知识产权侵权、个人信息泄露及不正当竞争中的法律风险,以典型案例为切入点,提出多维度合规路径。数据爬取行为的合法性需综合考量数据类型、技术手段及商业影响,此外需分析采购数据自用与转售场景下的法律责任差异。通过数据来源合规化、技术隔离与法律协议设计,有效降低侵权风险,推动数据要素的合法流通与技术创新平衡发展。
关键词:人工智能 数据爬取 模型训练 著作权 个人信息 不正当竞争
随着数字化浪潮来袭,数据已成为驱动经济增长与科技创新的关键生产要素。在人工智能、大数据分析等前沿领域,海量的数据资源为模型训练、商业决策、市场拓展等核心环节提供了不可或缺的支撑。然而,数据的广泛获取与利用背后,却隐藏着诸多不容忽视的法律风险,尤其是在数据爬取这一关键环节。
近年来,涉及人工智能模型的数据爬取和使用引发了大量法律纠纷,包括Getty Images起诉Stability AI侵权、笔神诉学而思数据盗取纠纷、OpenAI被诉窃取用户数据及侵犯作家版权、环球音乐集团诉Anthropic侵权、小红书AI工具被指侵犯插画师作品等典型案件。这些案件凸显出人工智能数据训练中版权侵权、隐私侵犯、不正当竞争等突出问题。基于此,本文拟从知识产权侵权风险、隐私与个人信息保护风险、不正当竞争风险等多个维度分析数据爬取自用及转售场景的法律风险,并提出相应合规建议,以期为企业的数据利用行为提供有益参考。
二、训练数据爬取的民事法律风险
人工智能模型训练的数据处理环节是确保原始数据适宜于模型训练的关键环节,为有效减少数据偏差,需要最大限度扩展训练数据的范围和质量。人工智能模型训练过程包括(如下图1所示):(1)数据收集,搜集与特定问题和任务相关的数据,确保数据集的多样性和高品质;(2)数据清洗,处理缺失、异常或错误的数据,以保障数据的统一性和准确度;(3)数据的标准化和归一化,目的是使数据在相似的量级上进行转换;(4)特征工程,依据任务要求,对原始特征进行转换或组合,创造新的特征,以便更好地从数据中提取相关信息,从而提升模型的效能;(5)测试与验证,将划分为测试的数据集用于测试验证,以便在训练完成后对模型进行测试和评估。
图 1模型训练过程
数据收集阶段爬取的互联网数据,包括网络爬虫采集的网页内容、社交媒体帖子、在线新闻和电子邮件,以及用户在社交媒体平台上产生的文本、图像和视频等。此外,也可能来源于开源数据库,例如Stability AI所使用的训练数据部分来源于计算机科学家Christoph Schumann及其合作者创建的LAION开源数据库中。亦有研究指出,OpenAI的数据主要基于维基百科、书籍、期刊、Reddit链接、抓取大型数据集、GitHub等代码数据集、StackExchange等对话论坛以及视频字幕数据集。
大量的数据爬取可能存在知识产权侵权、侵犯个人信息、构成不正当竞争等风险,且此三种风险并非独立,而是具有交叉属性,爬取含版权作品的数据若用于竞争性产品开发,可能同时侵犯复制权并构成不正当竞争。此外,使用爬虫技术非法获取他人的商业秘密,可能构成侵犯商业秘密犯罪;使用爬虫技术破坏计算机系统中的数据或应用程序,导致系统难以负荷,可能构成破坏计算机信息系统罪。本文仅就训练数据爬取的民事法律风险进行详细探讨。
(一)存在知识产权侵权风险
根据企业使用爬虫技术获取数据时,可能因不当的爬取并使用他人享有著作权的作品,侵犯他人著作权,具体包括但不限于以下情形:
1、侵犯他人著作权之复制权风险分析
伴随生成式人工智能时代的到来,人工智能逐渐具备强大的文本、图片、视频生成能力,根据生成式人工智能模型数据输出方式,可将其分为“非表达型”人工智能与“表达型”人工智能两种。“非表达型”人工智能不输出表达性内容,例如人脸识别技术,其从作品中提取的有价信息是非表达性的事实或思想,因此,“非表达型”人工智能属于非作品性使用,无侵权责任。“表达型”人工智能以输出文字内容、图片内容等为主要目的,对作品的使用是为了学习文字表达或绘画色彩搭配、线条勾勒等,存在侵犯著作权人复制权的风险。
复制可分为永久性和临时性两种类型,永久性复制涉及创建数据的持久副本,存储在硬盘驱动器或USB存储设备等介质上,能够使作品在持久的介质上长时间保存,因此它更可能构成著作权侵权;临时复制指的是为完成特定任务而在计算机系统或内存中短期创建的数据副本,这种复制通常仅在任务执行期间存在,一旦任务结束,这些副本便会被删除或清除。在某些著作权法体系中,临时复制可能不被视为侵犯著作权人复制权。
2、侵犯他人著作权之信息网络传播权风险分析
信息网络传播权是指以有线或者无线方式向公众提供作品、表演或者录音录像制品,使公众可以在其个人选定的时间和地点获得作品、表演或者录音录像制品的权利。
在模型训练过程,数据仅用于内部研究、开发和优化模型,并未向公众传播或用于商业目的,通常不构成对信息网络传播权的侵犯。但如果将模型训练得到的成果用于商业目的,或者在训练过程中将数据上传至互联网等公开渠道,则存在侵犯著作权人的信息网络传播权的风险。
3、侵犯他人著作权之改编风险分析
改编权是指改变作品,创作出具有独创性的新作品的权利。改编主要包括两种:一是在不改变作品原有类型的情况下进行改编,二是把作品从一个类型变成另一个类型,不改变作品的基本内容。
当前,关于使用爬取数据训练人工智能模型的过程中是否侵犯改编权,学界尚无定论,也暂无生效判决给出明确指引。有学者认为,如果人工智能最终输出的内容具有一定独创性,但仍然保留了数据库中某一作品或者某些作品的基本表达,应属于改编作品,此种未经许可并支付报酬的创作行为存在侵害改编权的可能;亦有学者认为,前述观点是从生成式人工智能生成内容判断其是否侵权,单从模型训练过程来看,不论是数据获取还是数据处理和学习,生成式人工智能并没有将获取到的数据进行改编,或进行类似改编的行为,仅仅是像人类一样对所获数据进行剖析和学习,从而生成自己的可用大模型,不构成侵犯改编权的情形。
(二)存在侵犯个人信息风险
企业使用爬虫技术获取数据时,可能因不当的爬取行为或数据使用方式,侵犯他人个人信息,具体包括但不限于以下情形:
1、侵犯被收集主体的知情同意权
在数据爬取时未告知或未充分告知收集数据以及收集方式、收集目的、处理方式、保障措施等信息,可能侵害被收集主体的知情同意权。此外,数据使用目的的合法性是评估爬取数据是否侵权的重要因素,若爬取的个人信息被用于与原始收集目的不符且未经信息主体同意的新目的,亦可能侵害被收集主体的知情同意权。
2、侵犯个人信息权益及隐私权
根据《民法典》第一千零三十四、一千零三十五条和《个人信息保护法》第四十四条相关规定,自然人享有对其个人信息的控制权和决定权。未经个人同意,通过技术手段突破平台权限管控爬取数据,违反了个人信息处理的合法、正当、必要原则,侵犯个人信息权;如果组合后的数据涉及个人的私密信息,如行踪轨迹、通信内容、家庭住址等,构成对隐私权的侵犯。
如(2019)京0108民初35902号案件中,法院指出创锐公司直接、大量抓取搬运涉案数据集合中的短视频、用户信息、用户评论在刷宝APP使用,不仅侵害用户个人信息所有权,而且损害了微播视界公司基于对涉案个人信息合法使用而形成的商业利益。又如(2021)浙0110民初2914号案件中,被告非法抓取原告“抖音”直播平台的非公开数据,包括用户打赏信息、主播收益等,并进行公开展示。尽管被告抓取的数据未直接包含用户的真实姓名,但结合主播的昵称、头像、直播形象等信息,可以识别出具体的个人,被告未经打赏用户及主播同意,擅自抓取并公开这些信息,其行为缺乏合法性基础,侵犯了用户的个人信息权益。
在主流社交平台(如微博、小红书、抖音)中,用户在社交平台设置访问权限的私密内容或采取加密保护措施的非公开数据,具有隐私属性。若通过技术手段突破平台权限管控机制获取此类信息,或对已采集信息实施二次传播导致个人信息不当扩散的,可能侵犯相关用户的隐私权。
(三)存在不正当竞争风险
企业在使用爬虫技术获取数据时,若通过非法技术手段获取非公开数据造成目标网站不合理负担或对爬取平台造成功能替代,可能因违反《反不正当竞争法》第二条(诚信原则)和第十二条(禁止技术手段妨碍竞争)被认定为不正当竞争,需承担民事赔偿、行政处罚等责任。
司法实践中,法院着重考量爬取行为是否违背商业道德(如违反Robots协议)、是否损害其他经营者合法权益(如数据投入成本、竞争优势)以及是否存在主观恶意。根据现有案例,以下情形可能被认定构成不正当竞争:
1、对目标网站造成不合理负担
如果爬虫的访问频率过高,可能导致目标网站服务器响应速度下降,甚至崩溃,影响正常用户的访问体验,可能被视为对目标网站经营秩序的干扰,构成不正当竞争。例如,在“蚁坊软件诉微博案”中,蚁坊软件通过爬虫大量抓取微博数据,导致微博服务器负担加重,被法院认定构成不正当竞争。
2、爬取数据技术手段非法,通过突破Robots协议、伪造IP地址等方式爬取数据
例如,“公开房源信息抓取案”,被告未经授权抓取贝壳网的房源数据,虽然数据本身公开,但其规避网站技术保护措施的行为被认定不具有正当性,构成不正当竞争。
3、爬取用户发布信息,并在自己的产品或者服务中发布、使用,对原平台功能替代
在大众点评诉百度不正当竞争案件以及新浪微博诉脉脉不正当竞争等案件中,法院认定被告未经许可抓取、使用原告网站中的数据的行为,违反了诚实信用原则及公认的道德,损害了互联网的市场竞争秩序,损害了原告的竞争优势,从而构成不正当竞争。
梳理相关案例发现,UGC平台的核心数据资产(如用户生成内容)往往构成其市场竞争优势基础。当第三方抓取此类平台(如大众点评、微博等)的专属性用户数据用于同类产品开发时,可能触发《反不正当竞争法》第二条、第十二条关于违背商业道德、妨碍网络产品正常运行的规制条款。典型如“淘某诉小某本公司案”,被告通过数据爬取实质性替代原平台核心服务功能,该行为被认定破坏经营者权益、用户信息安全及市场竞争秩序三重法益,构成不正当竞争。
三、数据购买方购买爬取数据的民事法律责任:自用或转售
(一)购买数据自用场景下的民事法律责任
数据交易过程存在两方主体,数据提供方和数据购买方。数据提供方即通过合法手段收集和整理数据的实体,可能是数据公司、研究机构或个人,负责数据的初始获取和初步处理。数据购买方即从数据提供方获取数据的实体,可能是企业、研究机构或其他组织,购买数据用于人工智能模型训练等目的。在自用场景下,无论直接购买数据还是合作定制数据,数据购买方均需严格审查数据提供方提供的数据是否合法合规,以降低法律风险。
1、审核数据来源是否合法
核实数据来源是否合法,是否遵循Robots协议。如果数据提供方无视该协议,强行爬取网站数据,可能会被视为违反商业道德和行业规范,甚至可能构成《刑法》第二百五十八条规定的非法获取计算机信息系统数据罪。
2、确保不侵犯隐私与个人信息保护
数据购买方接收数据时需明确区分数据提供方提供的数据类型,属于公开数据或非公开数据。对于公开数据,如用户在社交媒体上主动公开的个人信息,数据提供方需保证在爬取时也应遵循相应的规则和限制,避免过度收集或滥用。对于非公开数据,未经授权的爬取行为是明确禁止的,通过技术手段绕过网站的安全防护措施,获取用户的私人信息,将承担侵犯他人隐私权的责任。
3、确保不侵犯知识产权
数据购买方对于含有版权的作品,如文字、图片、音频、视频等,需严格审查是否已获版权所有者许可,未经许可随意爬取和使用,将承担版权侵权责任。
(二)购买数据转售场景下法律责任
购买数据进行转售场景下,增加第三方主体——数据接收方。在转售场景中,数据购买方将数据作为“商品”出售给第三方主体,意味着数据的流转性和商业价值大幅提升,同时也增加了法律风险的层次和种类。
转售数据有更加严格的授权链条,数据购买方不仅要确保自身获取数据的合法性,还需保证数据在转售过程中的授权完整可追溯。任何环节的授权缺失都可能导致整个数据转售行为的合法性受到质疑,例如,若数据购买方未获得数据所有者的明确授权,便将数据转售给第三方,可能构成对数据所有者权益的侵犯。
图 2数据采购与转售
在转售场景下,数据购买方还需严格审查并注意以下事项,以降低法律风险。
1、获用户明确同意且保证个人信息安全
转售场景下,由于数据将流转到其他主体手中,数据购买者对数据的控制力减弱,数据被滥用的可能性增加。首先,转售涉及个人信息的数据时,必须获得用户的明确同意,避免侵犯用户知情同意权,这要求数据爬取者在数据收集阶段就向用户充分告知数据的使用目的、使用方式以及可能的流转范围,并获得用户的明示同意。其次,数据购买方需要对数据进行严格的筛选和处理,确保转售的数据不包含任何可能侵犯用户隐私的信息,包括直接的个人身份信息,可能间接识别个人身份的关联信息。此外,数据购买方还需与数据接收方签订严格的保密协议,明确数据使用范围和保密义务,防止数据在后续流转中被非法泄露或滥用,以免承担侵犯他人个人信息权益的相关责任。
2、更加谨慎地处理知识产权问题
转售场景下,由于数据的商业化利用程度更高,数据购买方需要更加谨慎地处理知识产权问题。一方面,数据购买方必须确保所转售的数据不侵犯任何第三方的知识产权,避免收录受版权保护的内容。另一方面,数据购买方还需关注数据转售后的使用情况,防止接收方将数据用于侵犯知识产权的活动,从而间接引发自身侵犯知识产权的法律责任。
3、合理约束数据接收方使用行为
转售场景下,不正当竞争风险更为复杂和多样化。数据购买方不仅要关注自身的购买行为,还需对数据接收方的使用行为进行合理约束,以避免引发不正当竞争纠纷。具体包括:(1)数据购买方在转售数据时,不能通过垄断数据资源或设置不合理的交易条件,限制市场竞争。例如,通过独家授权或高价转售等方式,使其他竞争对手无法获取必要的数据资源,从而扭曲市场竞争格局。这种行为可能被视为滥用市场支配地位,构成不正当竞争。(2)数据购买方需要对数据接收方的使用行为进行监督和约束。如果接收方利用所购数据从事不正当竞争行为,如恶意诋毁竞争对手、诱导用户转移等,数据爬取者可能因未能履行合理的注意义务而承担连带责任。因此,数据购买方在转售数据时,应与接收方签订详细的使用协议,明确数据的使用范围和禁止行为,并建立相应的监督机制,确保数据的合法使用。
四、训练数据爬取的合规路径设计
基于上述,法研社结合实践经验,从企业获取到使用爬虫数据的过程出发,提出训练数据爬取的合规路径,具体如下:
(一)保证数据来源合法
1、审查数据提供方的合法性
在购买数据时,应严格审查数据提供方的合法性,确保其具备合法的数据采集和处理资质。同时,要求数据提供方提供数据来源的详细说明和授权证明,确保数据的合法性。
2、核查数据来源及数据内容的合法性
数据爬取不得突破、绕过、破解目标网站的防护机制,不得通过“直接破解”网站设置的身份验证机制等反爬机制以达到跳过验证步骤直接进入系统爬取数据的目的。对于涉及个人信息的数据,需特别关注是否获得信息主体的明确同意,以及是否符合相关法律法规对个人信息保护的要求。《数据安全法》第三十二条规定了在数据收集阶段的合法收集义务,不得以非法的方式获取数据,《网络安全法》第四十一条和《个人信息保护法》第二条也明确了个人信息的保护范围和适用对象,强调个人信息的处理应当遵循合法、正当、必要的原则,强调数据来源的合法性。数据流转过程,需要对数据来源进行合法性审查,由数据交易方对数据来源是否合法进行判断。
(二)采取技术手段进行风险隔离
1、数据清洗与过滤
(1)建立严格的数据筛选和清洗机制
在数据处理和使用环节,应建立严格的数据筛选和清洗机制,去除可能涉及侵权的内容,对数据进行匿名化和脱敏处理,降低数据与特定个人或企业的关联性,从而减少侵权风险。
(2)过滤个人信息、未授权版权作品
在模型训练过程中,需要对训练数据进行严格的过滤,以排除可能引发法律问题的内容,包括但不限于受版权保护的作品、包含个人信息的数据、涉及隐私或商业秘密的信息等。在训练一个文本生成模型时,需要使用自然语言处理技术对数据进行筛选,识别并过滤掉包含个人信息、未经授权的版权内容等敏感信息的文本片段。随着新技术的出现和法律法规的更新,需要定期评估和调整过滤策略,确保模型训练和输出过程始终符合法律合规要求。
例如,知识产权层面,可采用过滤技术排除侵权内容。通过算法识别受版权保护素材,并在预处理阶段自动剔除。利用过滤技术架构通过多级算法组合识别并排除受版权保护内容,如:关键词与元数据匹配、内容相似度检测、数字水印识别。
又如,个人信息层面,在使用爬取数据时,要采取有效的技术措施保护用户隐私。对数据进行匿名化或脱敏处理,确保在数据分析和使用过程中无法识别出特定个人的身份信息。将个人信息泛化与匿名化,对直接标识符(如姓名、身份证号)进行泛化(如“张*三”)、替换(如用虚拟ID替代真实ID)或删除;对间接标识符(如IP地址、地理位置)进行模糊化(如将经纬度精度降至千米级)。利用差分隐私(Differential Privacy)在数据中注入可控噪声,使个体信息无法被逆向还原。同时,建立完善的数据管理制度,严格控制数据访问权限,防止内部人员非法泄露用户隐私。
2、模型训练与输出隔离
在人工智能模型训练过程中,模型训练与输出隔离是一种关键的技术和法律策略,旨在确保模型的输出内容不会直接反映或泄露训练数据中的敏感信息,从而避免潜在的法律风险。
(1)将训练数据融入模型参数,避免外挂知识库直接输出侵权内容
通过参数化学习将训练数据转化为抽象的数学表征,这种表征不再直接对应具体的文本内容,而是以参数形式存储在模型中。在处理大量文本数据时,将文字信息转化为高维向量空间中的点或向量,这些向量捕捉了文本的语义、语法等特征,但并不直接存储原文本信息。通过这种方式,模型能够学习到数据中的模式和知识,同时避免直接输出训练数据中的具体内容。
(2)利用知识蒸馏模型优化技术(如图3所示)
通过将大型模型的知识转移到较小的模型中,实现模型的轻量化和高效运行。在知识蒸馏过程中,小型模型学习大型模型的输出分布,而不是直接复制大型模型的参数。有助于进一步隔离训练数据与模型输出之间的直接关联,降低因模型输出而导致的侵权风险。通过将训练数据融入模型参数,模型的输出内容与原始训练数据之间的直接关联被弱化,降低因模型输出与训练数据过于相似而导致的侵权风险,尤其是在涉及版权保护的作品或个人信息等方面。如果训练数据中包含受版权保护的文本内容,经过参数化学习后,模型生成的文本将不再是原文本的简单复制,而是基于所学知识的重新创作,从而减少侵权的可能性。
图 3知识蒸馏技术
目前我国暂未出台相关数据披露规定,将数据输入与输出端隔离是较优规避风险措施,但仍需看到国外立法进展已要求披露数据来源,如欧盟《人工智能法案》,设定了训练数据公开的义务,要求提高通用人工智能模型的预训练和训练中使用的数据的透明度,随着法律的变化合规路径也会随之改变。
(三)利用法律协议转移风险、采取合理抗辩策略
1、利用合同转移风险
(1)与数据提供方签订相关协议
要求数据提供方保证数据合法性,并约定侵权责任分担条款。在数据转售过程中,应与数据接收方签订详细、明确的合同,明确双方的权利和义务,合同中应包括数据的使用范围、期限、质量标准、保密条款、违约责任等内容,确保双方在数据使用和转售过程中的行为符合合同约定和法律法规要求。在采购合同中明确数据的知识产权状况,确保数据使用不侵犯第三方权利。
(2)建立合规管理体系
对数据采购、处理、使用和转售的各个环节进行合规审查和监督,确保整个数据流转过程合法合规。审查数据供应商的资质和数据来源,确保其合法性,要求数据供应商提供数据脱敏处理的证明,确保数据不包含敏感个人信息。
2、采取合理策略进行抗辩
(1)利用合理使用进行抗辩
主张AI训练具有“转化性用途”,生成内容与原数据用途差异显著。生成式人工智能模型训练获取数据的过程虽然会对作品进行复制,但该复制在模型自主学习时已被拆分为不同的各个部分。类似自然人学习,通过阅读文章,了解写作逻辑,从而生成自己的作品。同理,模型训练的过程也是如此,将完整内容拆分后学习。学习大众化表达的人工智能与人类的学习并无二致,唯一的区别在于学习的速率与量级。囿于机器摄取知识不同于人类,其获取数据过程不可避免需要复制作品,既然人类的学习可以构成合理使用,机器的学习是否也应考虑纳入合理使用范畴。
(2)利用用户行为进行抗辩
参考ChatGPT应诉《纽约时报》理由,用户在使用模型时可能会输入各种指令和数据,这些输入内容并非由模型提供方控制或提供。用户大量投喂侵权数据,造成模型过度记忆,以致输出相似内容,此种情况下,模型的输出结果与用户输入的内容密切相关,非模型提供方故意导致的侵权行为。
(3)利用善意取得进行抗辩
数据购买方是否侵权立足于是否明知数据来源、内容不合法。但目前没有明确的数据公示途径,数据购买方可结合动产善意取得的相关规则进行抗辩。涉及版权侵权此类无过错责任,即便不知道数据来源不合法,虽不承担赔偿责任,但需停止使用。
(四)数据交易登记
通过场内交易平台(如上海数据交易所)完成数据确权与合规流转,降低法律风险。场内交易平台,提供了一个规范、透明的数据交易环境。通过平台进行数据交易,可以一定程度上保障数据的来源合法、用途合规,并且交易过程可追溯,有助于降低法律风险,提升数据交易的可信度和安全性。
在场内交易平台进行数据交易,可以有效降低因数据来源不明、用途不合规等问题引发的法律纠纷。同时,平台通常会提供一系列的合规服务,如数据确权、数据清洗、数据脱敏等,确保数据在交易过程中的合法性和安全性。
数据爬取的合法性边界问题本质上是技术创新与法律滞后性的冲突体现。技术迭代日新月异,而法律存在滞后性,这种“时间差”使得数据爬取行为在法律规制上存在空白与模糊地带。对AI企业而言,应将合规要求深度融入技术研发的全流程,从数据采集、模型训练到内容输出,每个环节都要建立严格的合规审查机制。在数据收集阶段,应确保爬取数据的合法性,遵循相关法律法规与平台规则,避免侵犯他人权益。在模型训练与优化过程中,要持续监测模型输出,防止出现侵权内容。同时,AI企业还应积极参与行业标准制定,推动形成良好的行业生态,提升整个行业的合规水平。只有这样,AI企业才能在激烈市场竞争中立于不败之地,实现技术创新与法律合规的双赢。