数据标注:大模型合规的第一块多米诺骨牌

“数据标注”(Data Annotation)是大模型产品开发设计的第一块多米诺骨牌,是生成式AI数据保护合规合格与否的试金石。

大模型(例如GPT-4o)是通过大量数据训练出来的,具有处理和生成自然语言的能力。而为了让大模型能够理解和生成准确的内容,就需要对训练数据进行精细的标注,这个过程被称为数据标注。也是得益于大量标注的文本数据,GPT-4o可以准确解读人类语言。

大型语言模型 (LLM) 的数据标注(Data Annotation),就是是指标记、分类和标记数据的过程,从而促进机器学习算法理解和生成准确的预测。

01 数据标注简史

数据标注是开发大模型中数据预处理的重要起始环节。通过数据标注的数据,才有机会形成一个数据集,并基于样本数据集投喂于算法模型训练之中,从而形成大模型系统及后续应用产品。

因此,不论是类似GPT-4o这类大模型,还是文心一言大模型,通过互联网采集非结构化的海量数据后,均需要对该类数据进行一定程度的标注,标注越准确的数据及形成的数据集,才能够为大模型生成的质量带来更好的效果。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

当然,数据标注除了能够提供良好的识别分类能力外,如将文本分为不同的类别(如新闻、娱乐、科技等),也可以进行大语言模型中的情感分析,即标注文本及回答的情感倾向(如积极、消极、中性)。例如,GPT-4o 已经能够识别人类语气的微妙变化,并以不同的情感风格生成回应。‍

只不过,尽管人工标注方式能够有效提升数据集质量和精度,但是人工标注的方法也是人工智能发生的瓶颈——这需要破费巨额的资金以及人力成本,大量的数据标注服务公司聘请大量的数据标注员工没日没夜机械地标注各类数据。

窃以为,人工智能的开端可能都是“人工智障”或人类工作堆叠。简单地如现阶段的本地知识库小模型训练,不仅需要人类投喂本地数据,更需要人类将本地数据进行拆解或分库编排才能有效基于大模型生成问答的模式,仍然会破费无尽的精力。

大家有没有这种感受,人类幼儿以及动物可以通过观察世界来了解世界的运转规律,这种规律又是一种常识认知。幼儿可以基于首次观察熊猫的图片,从而在任何熊猫变种(如熊猫大小不一、毛色在泥水中变脏等)的情况下,继续识别出熊猫。同样,人类可以在短时间的在驾校模拟环境中驾驶汽车训练后能够控制车辆在真实复杂道路上行驶,而自动驾驶却很难。

但是这种常识,对人类,甚至是动物而言均被视为理所当然,对于人工智能而言,却是一道无法变成通途的天堑。但自人工智能研究诞生以来,它一直是人工智能研究中的一个悬而未决的挑战,在某种程度上,常识是人工智能的暗物质,常识可以帮助人们学习新技能,而无需为每项任务进行大量的教学。‍‍‍‍‍‍‍‍

数据的质量对于大模型的训练至关重要,在模型训练之前,通常依赖专业数据团队对数据集进行预处理。在实践中,有大量平台提供数据标注服务,这些系统支持修改标注标签体系,可调整标签名称或补充/删减标签类目。

(aiearth.aliyun人工标注系统)

相比之下,经过监督学习训练的人工智能系统需要大量的熊猫图像样本,并且可能仍然无法对沾满泥水而变色特殊情况下的熊猫进行分类。这也足以说明,像类似特斯拉FSD V12这种纯视觉模式下的端到端自动驾驶能力确实足够令世人瞩目。‍‍‍

答案也快浮出水面——自监督学习(无须人类提供标签标注的学习)中,数据标注不再是刚需。生成式人工智能是深度学习的一个子领域,深度学习是一种机器学习方法,而机器学习又能区别为监督学习和自监督学习等模式。前者就是繁重的人工标注,需要在人类标签标注的监督中学习,后者,在无须人类提供标签投喂的条件下,成为大模型数据预训练中的趋势。

自监督学习(Self-Supervised Learning,SSL)在机器学习和人工智能领域中日益受到关注,因为它可以在很大程度上减少对手工数据标注的依赖。然而,需要明确的是,自我监督学习并不是完全不需要数据标注,而是通过不同的方法减少标注数据的需求。

不管是特斯拉,还是OPENAI,均已将自监督学习作为重要数据标注的手段,从而大大提升了数据预训练处理中的效率。

比如OPENAIDALL·E2为了将互联网上数亿张有字幕的图像上进行训练,可以自动标注风险图片,删除并重新权重其中一些图像,以改变模型学习的内容。业界还有一些公司提供数据引擎能力,如Labelbox在其《人工智能数据引擎的完整指南》报告中称:“自动化标注技术已被证明可为AI团队减少多达50%4的贴标签时间和成本。”

02 AI数据标注的法规碰撞

似乎是AI的兴起,才让数据法律人第一次硬着头皮进入可怕的技术赛道。在数据标注这件事情上,自2024年初以来,几乎全球任一事关AI立法的法规项,均对数据标注这一问题提出了严肃的立法要求。 ‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

《欧盟人工智能法案》规定:“使用涉及用数据训练模型的技术的高风险人工智能系统应在符合(法案)所述质量标准的训练、验证和测试数据集的基础上开发……应特别涉及……(c)相关数据准备处理操作,如数据标注、标签、清理、丰富和汇总”。

2024 年 3 月 22 日,法国数据保护机构 (CNIL) 发布《GDPR 实践指南-个人数据安全2024》指南文件,明确指出,人工智能设计和训练的“基本预防措施”须包括检查数据标注的质量、可能存在的偏见、数据源的可靠性,特别是为了防止数据被第三方操纵(例如投毒),避免“针对来源未知或不可靠,或其质量,特别是数据标注质量未经验证的数据训练模型”,确保用于学习和推理的数据和标注的质量和完整性。

2024年6月3日,欧盟数据保护机构EDPS在《Generative AI and the EUDPR. First EDPS Orientations for ensuring data protection compliance when using Generative AI systems.》报告“8.生成型人工智能系统是否尊重数据准确性原则?”篇章中,要求生成型人工智能系统须在其生命周期的所有阶段,特别是在预训练阶段,一要验证用于训练模型的数据集(含第三方)的结构和内容的安全和质量,二是针对数据采集、预处理(包括标注、标签、清理、充实和汇总等)中所用数据准确性,并须获得数据提供方的合同性保证。

2024年6月11日,中国香港个人资料私隐专员公署(私隐专员公署)发布《人工智能 (AI): 个人资料保障模范框架》的“AI预训练数据”中,要求基于包括数据标注在内的数据预处理过程中,须保障数据处理的质量。‍‍‍‍

在各区域立法中,最值得一提的,仍然是法国“立法”。 ‍‍‍

2024年6月10日,法国数据保护机构CNIL在发布《人工智能:关于人工智能系统开发的新公众咨询》中,对包括人工智能系统开发合法权益、法律依据、数据主体权利、数据标注以及确保AI系统开发安全七个话题展开公众咨询。

人工智能系统开发中的“数据标注”问题,是第一次以如此优先级的方式,罕见的列在如此重要的话题层级中,这足够它吹一辈子牛了。

CNIL 关于 AI 数据标注的咨询文档认为“数据标注阶段对于保证训练模型的质量至关重要,数据标注阶段是开发高质量人工智能模型的决定性一步,无论是对于性能问题还是对于尊重人们的权利”。同时,咨询文档强调了准确和道德数据标注在 AI 开发中的关键作用,特别是遵守 GDPR 原则,如数据最小化、准确性和公平性,咨询文档还提供了确保数据质量的实用措施,包括制定精确的标注协议、持续验证程序和道德监督,还强调了告知个人数据标注过程和尊重其权利的重要性。

针对数据标注的最小化原则,CNIL 要求人工智能系统开发人员在之前从开源或非开源收集、购买或下载后使用的带标注的数据集应仅包含与其开发的系统功能相关的标注。

针对准确性原因,CNIL 要求开发人员必须采取适当的措施来确保注释标准的客观性,不应存在有辱人格的标注风险。针对标注质量,CNIL 要求开发人员采购并依赖可靠、稳健、受控的标注系统服务或工具,并签署必要的协议。

针对用户权利,CNIL 要求开发者告知数据标注处理的相关内容,比如标注的目的、是否向第三国转移等。用户还可以提出删除、更正、查阅等主体权利。这是因为,在涉及个人数据的人工智能系统中,对数据进行标注意味着一种画像标签标识机制。例如,在使用语音工具获得的客户录音,开发者对语音内容进行分析标注(例如客户的喜好偏好)时,则须由数据控制者的团队响应用户权利。

03 数据标注的中国合规方案

中国《生成式人工智能服务管理暂行办法》第八条规定:“在生成式人工智能技术研发过程中进行数据标注的,提供者应当制定符合本办法要求的清晰、具体、可操作的标注规则;开展数据标注质量评估,抽样核验标注内容的准确性;对标注人员进行必要培训,提升尊法守法意识,监督指导标注人员规范开展标注工作。”当主管部门提出监督检查时,开发者还需要按要求对训练数据来源、规模、类型、标注规则、算法机制机理等予以说明,并提供必要的技术、数据等支持和协助。

这,构成了中国人工智能数据标注合规动作的开端。 ‍‍‍‍‍‍‍

为了支撑配套,我国《网络安全技术 生成式人工智能服务安全基本要求》与在研国家标准《网络安全技术 生成式人工智能预训练和优化训练数据安全规范》《网络安全技术 生成式人工智能数据标注安全规范》均为《办法》的配套支撑文件。

TC260-003《生成式人工智能服务安全基本要求》对标注人员、标注规则及标注内容准确等提出要具体的要求,包括标注人员培训和考核,制定标注规则并要求须对附录31种安全风险均应有对应的标注规则,等等。《网络安全技术 生成式人工智能服务安全基本要求》基本上沿用了TC260-003《生成式人工智能服务安全基本要求》,仅删除了“宜对安全性标注数据进行隔离存储”的合规要求。

更详细的标注配套是《网络安全技术 生成式人工智能数据标注安全规范》,该标准规范针对生成式人工智能产品研制中的人工标注环节,对人工标注规则制定、标注实施安全、标注质量及安全性核验要求、标注人员安全管理要求、过程安全控制要求、安全证实方法等方面提出规范指引。

中国版数据标注合规方案将会是人工智能企业的必修法律课。因为,这一合规短板不仅将影响企业开发大模型的上线备案申报,更在未来引发连锁式多米诺骨牌效应。

至少,简单来看,中国版数据标注合规方案要管标注人、建制度、建标注检测流程、管三方数据集等环节。可能稍有不慎,我们连为何被处罚都不明不白。‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍‍

例如,在用户在产品的输出提示信息:“我要去北京旅行,请给我介绍下北京这座城市”时,如果模型输出应答为:“北京是中国的首都,也是中国最重要的城市之一。北京是一个充满活力和魅力的城市,值得一游”,将被视为一种错误的反例应答。

你知道为什么吗?

读者福利:如果大家对大模型感兴趣,这套大模型学习资料一定对你有用

对于0基础小白入门:

如果你是零基础小白,想快速入门大模型是可以考虑的。

一方面是学习时间相对较短,学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括:大模型学习线路汇总、学习阶段,大模型实战案例,大模型学习视频,人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型!

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图,整体分为7个大的阶段:(全套教程文末领取哈)

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的,要学会跟着一起做,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频,看书籍和视频学习是最快捷也是最有效果的方式,跟着视频中老师的思路,从基础到深入,还是很容易入门的。
在这里插入图片描述
在这里插入图片描述

👉学会后的收获:👈

• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

👉获取方式:

😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

  • 7
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值