如何阻止 ChatGPT 使用您的网站内容

有人担心缺乏一种简单的方法来选择不将自己的内容用于训练像ChatGPT这样的大型语言模型(LLM)。有一种方法可以做到这一点,但它既不简单,也不保证有效。

AI 如何从您的内容中学习

大型语言模型 (LLM) 根据源自多个源的数据进行训练。其中许多数据集是开源的,可以自由地用于训练AI。

通常,大型语言模型使用各种各样的源进行训练。

所用来源类型示例:

  • 维基百科
  • 政府法庭记录
  • 电子邮件
  • 已抓取的网站

实际上,有一些门户网站和网站提供数据集,这些数据集正在泄露大量信息。

其中一个门户由亚马逊托管,在AWS上的开放数据注册表提供数千个数据集。

屏幕截图来自亚马逊,2023 年 1 月

拥有数千个数据集的亚马逊门户只是包含更多数据集的许多其他门户中的一个。

维基百科列出了28个用于下载数据集的门户,包括用于查找数千个数据集的Google数据集和Hugging Face门户。

用于训练 ChatGPT 的数据集

ChatGPT 基于 GPT-3.5,也称为 InstructGPT。

用于训练 GPT-3.5 的数据集与用于 GPT-3 的数据集相同。两者之间的主要区别在于 GPT-3.5 使用了一种称为从人类反馈中强化学习 (RLHF) 的技术。

用于训练 GPT-3(和 GPT-3.5)的五个数据集在研究论文《语言模型是少数镜头学习者》(PDF)

数据集是:

  1. 常见爬网(已筛选)
  2. 网络文本2
  3. 书籍1
  4. 书籍2
  5. 维基百科

寻找搜索引擎优化工具?20合1怎么样?
获得更多流量。吸引合适的受众。发现 SERP 机会。所有这些都从一个地方更快、更轻松地提高您的排名。

广告

在五个数据集中,基于互联网爬网的两个数据集是:

  • 常见爬网
  • 网络文本2

关于 WebText2 数据集

WebText2是一个私有的OpenAI数据集,通过抓取来自Reddit的链接来创建,该链接有三个赞成票。

这个想法是这些URL是值得信赖的,并且将包含高质量的内容。

WebText2是由OpenAI开发的原始WebText数据集的扩展版本。

最初的WebText数据集有大约150亿个代币。WebText 用于训练 GPT-2。

WebText2略大,为190亿个代币。WebText2 是用于训练 GPT-3 和 GPT-3.5 的

开放网络文本2

WebText2(由OpenAI创建)不公开可用。

但是,有一个公开可用的开源版本称为OpenWebText2。OpenWebText2 是一个公共数据集,使用相同的爬网模式创建,这些爬网模式可能提供与 OpenAI WebText2 相似(如果不是相同)的 URL 数据集。

我只在有人想知道WebText2中的内容时才提到这一点。人们可以下载OpenWebText2以了解其中包含的URL。

OpenWebText2的清理版本可以在这里下载OpenWebText2的原始版本可在此处获得

我找不到有关用于任一爬虫的用户代理的信息,也许它只是被标识为 Python,我不确定。

 

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

送涂图

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值