号称超越 GPT-4 的大模型们，有多少靠的是「抄袭」

最新推荐文章于 2024-08-27 15:17:04 发布

雪碧没气阿

最新推荐文章于 2024-08-27 15:17:04 发布

阅读量821

点赞数 10

文章标签：人工智能 ai 大模型语言模型 gpt

本文链接：https://blog.csdn.net/xxue345678/article/details/138718044

版权

大家相互薅羊毛，要用，但要小心用，一不小心就尴尬了。

一位国产大模型算法工程师在接受「甲子光年」采访时的吐槽，可以说是非常到位了。

它准确地阐述 AI 业内一个所有人「心照不宣」的公开秘密。

所有人都知道，大家却都尽量不「直视」它，那就是「偷数据」。

最近，「The Information」戳破了这层纱，道出大模型「套壳」中最糟糕的一种形态。而它背后的数据之战，也在今年获得了更多关注。

让模型走向同质化的「数据捷径」

如果所有人都用一样的数据，你又怎么会比其他人好呢？

投资了 OpenAI 竞争对手 Anthropic 的门罗风投（Menlo Ventures）总经理 Matt Murphy 评论道。

大家都知道，在大模型训练过程中，数据至关重要，并且在不同阶段的侧重点也有所差异。

在训练基座模型时，数据追求的是「量」，对算力要求也是极高，它决定了大模型对事物的基本「理解能力」。

显然，不是所有初创企业都能给得起这个费用和时间。所以很多创业公司会跳过第一步，直接用 Meta 或 Mistral AI 开源的模型来用。

在这里插入图片描述

在这个基础上，创业公司需要针对自己的产品专注方向来对模型进行微调 —— 数据输入量相对少，但更具针对性和高质量，可以帮助模型成为特定领域的「专家」，做出产品差异性。

在这个阶段，开发者需要输入「问题」「回答」，试图为模型建立特定「联想」倾向。

这也是「偷数据」出现的环节。

因为 OpenAI、Anthropic 和 Google 这类大公司有资源去完善地完成两个阶段的训练，所以它们的模型所输出的结果质量也相对较高。

缺乏自有数据的初创公司，会购买 GPT-4 这类最新模型的付费账户，然后根据自己模型训练的需要去向 GPT-4 提问，再把回答和提问问题一并输入到模型训练。

譬如，主打编程细分领域模型的开发者可以直接输入一段代码，然后问 GPT-4 这段代码有什么问题，这样就生成了一个数据材料。

在这里插入图片描述

理论上，大公司们并不允许如此操作。

然而，有消息称 OpenAI 的 Sam Altman 在去年的一次会议上对创业者说，他们可以这样去做。这固然让当下的创业者安心了一些，但谁也说不准哪天 Altman 就决定要把这「特权」收回去。

Google 去年也有自己的「数据门」—— 不仅被指用百度的文心一言生成的中文数据来训练 Gemini，还有员工因 Google 用 ChatGPT 生成的数据训练自己的模型怒而辞职。

在行业整体「默许」下，这种情况变得越来越普遍。

帮助开发者研发对话式 AI 的 Unsloth AI 联合创始人 Daniel Han 表示，其客户中大概有一半的人都会用 GPT-4 或者 Anthropic 的 Claude 生成的数据来优化自己的模型。

原本用来分享有趣 ChatGPT 对话的工具 ShareGPT 成为了不少公司直接扒数据的地方，而类似 OpenPipe 这类工具则甚至可提升整个过程的自动化程度。

结果就是，现在市面上有越来越多创业公司提供大同小异的模型。这甚至衍生出如旧金山的 Martian 一般，专门为需要用 AI 服务的企业寻找「平替」方案的创业公司。

但投资人并不喜欢这种被欺骗的感觉。

正如《纽约时报》在最近文章的指出，目前 AI 行业缺乏标准和评测体系，人们很难统一标准地了解不同模型的表现差异或优势所在。

这让投资人更重视 AI 创业公司训练数据的来源。Radical Ventures 合伙人Rob Toews 强调说：

AI 模型训练数据的质量和来源已经成为其中一个最重要的热点关注之一。
没人知道未来会怎样，但任何在数据来源上不谨慎或不具备策略性的 AI 创业公司都将落后。

数据大战中，「沉默」成为了共鸣

在这里插入图片描述

如果说「缺芯」是 2023 年 AI 行业的共识，那「缺数据」则是 2024 年的新主题。不仅创业公司缺，大公司更缺。

无论体量是大还是小，为了获得数据，这些公司都开始在灰色地带徘徊。

早在 2021 年，OpenAI 就面临了数据短缺问题。

虽然有员工提出行为不当性忧虑，最后 OpenAI 还是写了一个语音转文字工具 Whisper 来将超过 100 万小时的 YouTube 视频转为文字，用作 GPT-4 训练。

在这次行动中，OpenAI 总裁 Greg Brockman 还亲自出马帮忙收集视频。

在这里插入图片描述

知情人士透露，当 Google 发现 OpenAI 的所作所为后，它并没有揭发斥责这些侵害创作者版权的行为，因为，Google 也要做同样的事情。

Google 发言人 Matt Bryant 回应称，公司对 OpenAI 的行为并不知情，且严禁未经授权的数据抓取。

除了 YouTube 以外，三位知情人士表示，Google 也在盯着旗下线上协作文档工具 Google Doc 里的数据，但其隐私政策限制了 Google 使用这些数据的方式。

去年 7 月，Google 更新了隐私政策，明说可通过收集网络上的公开信息或来自其他公共来源的信息来训练 AI 模型。

在这里插入图片描述

对于在 AI 领域「起了大早却赶了个晚集」的 Meta 来说，虽然有法务曾警告过版权问题，最后也是决定跟随 OpenAI 的「行业先例」去使用有版权保护的书籍、文章等材料。

泄露出来的录音还表明，Meta 高管们一致同意，出事了可用 2015 年作家协会诉 Google 案失败的先例来辩护。

在这里插入图片描述

至于看起来应该是 Meta 最大优势的 Facebook 和 Instagram，事实上可用数据并不多，很多 Facebook 用户都删掉了自己早期发布的内容，而社交媒体通常也不是人们爱用来发布长篇内容的地方。

这些巨头们不愿言说的过往，构成了 AI 行业在训练数据上一致的闪烁其词。

Adobe 算是其中鲜有积极讨论自家模型训练数据的大公司。

最近，它也「塌房」了。

Adobe 一直以来标榜公司是和创作者站在同一边，坚定只使用自家获得授权的图库来训练模型，不会像 Midjourney、Dall-E 那样擅自用有版权保护的图像素材训练。

直到有人发现，Adobe 的训练数据里其实有包括 AI 生成图片，而且 Adobe 也是知情的。

在这里插入图片描述

虽然 Adobe 强调，模型的训练数据里只有 5% 左右的图像是 AI 生成的，但无论如何那些图像也是通过侵害创作者版权利益而造的文生图模型做出来的，因此并不完全「道德」。

这个月初，Adobe 高级副总裁 Ashley Still 还在一场公开活动上说：

我们在推出 Firefly 时，有企业用户会来跟我们说：「我们很爱你们在做的事，真的非常感激你没有盗取我们在网上的知识产权。」

不知道「塌房」消息出来后，这位企业用户会作何感想。

「榨干」互联网后，下一步在哪？

我们曾以为互联网「浩瀚无垠」，直到现在大语言模型已经「吃不饱」。

在这里插入图片描述

两年前，研究机构 Epoch 的 Pablo Villalobos 指出，高质量数据很有可能会在 2024 年中期出现需求超过供给。他们现在乐观了一点，认为这个情况会在 2028 年才出现。

即便如此，OpenAI 现在可能也已经在忙了。

Epoch估算，GPT-4 所用训练数据约为 12 万亿 token，根据尺度定律（Scaling Law），要训练出被寄予厚望的 GPT-5 大概要 60-100 万亿 token。

如果按这个标准，现有的高质量文字数据和图像数据加起来体量根本不够，还差 10-20 万亿 token。

改变迫在眉睫。

Sam Altman 之前也暗示过，OpenAI 在找寻新的出路：

我想，那个追求庞大模型的时代已经快要到头了。
我们将用其他方法来让它们变得更好。

在这里插入图片描述

与此同时，消息人士称 OpenAI 和 Google 都考虑做一套可以丈量特定数据对模型训练贡献程度的系统，这样好给提供这些数据的人计算要支付的费用，但目前还没有什么进展。

而在这些开拓数据和创新技术实现之前，有一件事 AI 创业公司现在就有能力但不一定愿意做的事 —— 提高透明度，打破沉默。

如果这也做不到，我们又怎能相信这些公司能做出对社会负责任的 AI 产品？

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段（10天）：初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识，对大模型 AI 的理解超过 95% 的人，可以在相关讨论时发表高级、不跟风、又接地气的见解，别人只会和 AI 聊天，而你能调教 AI，并能用代码将大模型和业务衔接。

大模型 AI 能干什么？
大模型是怎样获得「智能」的？
用好 AI 的核心心法
大模型应用业务架构
大模型应用技术架构
代码示例：向 GPT-3.5 灌入新知识
提示工程的意义和核心思想
Prompt 典型构成
指令调优方法论
思维链和思维树
Prompt 攻击和防范
…

第二阶段（30天）：高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习，学会构造私有知识库，扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架，抓住最新的技术进展，适合 Python 和 JavaScript 程序员。

为什么要做 RAG
搭建一个简单的 ChatPDF
检索的基础概念
什么是向量表示（Embeddings）
向量数据库与向量检索
基于向量检索的 RAG
搭建 RAG 系统的扩展知识
混合检索与 RAG-Fusion 简介
向量模型本地部署
…

第三阶段（30天）：模型训练

恭喜你，如果学到这里，你基本可以找到一份大模型 AI相关的工作，自己也能训练 GPT 了！通过微调，训练自己的垂直大模型，能独立训练开源多模态大模型，掌握更多技术方案。

到此为止，大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗？

为什么要做 RAG
什么是模型
什么是模型训练
求解器 & 损失函数简介
小实验2：手写一个简单的神经网络并训练它
什么是训练/预训练/微调/轻量化微调
Transformer结构简介
轻量化微调
实验数据集的构建
…

第四阶段（20天）：商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知，可以在云端和本地等多种环境下部署大模型，找到适合自己的项目/创业方向，做一名被 AI 武装的产品经理。

硬件选型
带你了解全球大模型
使用国产大模型服务
搭建 OpenAI 代理
热身：基于阿里云 PAI 部署 Stable Diffusion
在本地计算机运行大模型
大模型的私有化部署
基于 vLLM 部署大模型
案例：如何优雅地在阿里云私有部署开源大模型
部署一套开源 LLM 项目
内容安全
互联网信息服务算法备案
…

学习是一个过程，只要学习就会有挑战。天道酬勤，你越努力，就会成为越优秀的自己。

如果你能在15天内完成所有的任务，那你堪称天才。然而，如果你能完成 60-70% 的内容，你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【`保证100%免费`】

在这里插入图片描述

雪碧没气阿

关注

10
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
号称超越 GPT-4 的大模型们，有多少靠的是「抄袭」

大家相互薅羊毛，要用，但要小心用，一不小心就尴尬了。一位国产大模型算法工程师在接受「甲子光年」采访时的吐槽，可以说是非常到位了。它准确地阐述 AI 业内一个所有人「心照不宣」的公开秘密。所有人都知道，大家却都尽量不「直视」它，那就是「偷数据」。最近，「The Information」戳破了这层纱，道出大模型「套壳」中最糟糕的一种形态。而它背后的数据之战，也在今年获得了更多关注。让模型走向同质化的「数据捷径」如果所有人都用一样的数据，你又怎么会比其他人好呢？
复制链接

扫一扫