有人担心缺乏一种简单的方法来选择不将自己的内容用于训练像ChatGPT这样的大型语言模型(LLM)。有一种方法可以做到这一点,但它既不简单,也不保证有效。 AI 如何从您的内容中学习 大型语言模型 (LLM) 根据源自多个源的数据进行训练。其中许多数据集是开源的,可以自由地用于训练AI。 通常,大型语言模型使用各种各样的源进行训练。 所用来源类型示例: 维基百科 政府法庭记录 书 电子邮件 已抓取的网站 实际上,有一些门户网站和网站提供数据集