NEWS|大型语言模型之后的下一个词是什么？

最新推荐文章于 2025-04-19 16:33:14 发布

DrugPython

最新推荐文章于 2025-04-19 16:33:14 发布

阅读量126

点赞数

分类专栏： NEWS 文章标签：语言模型人工智能自然语言处理

本文链接：https://blog.csdn.net/weixin_45468600/article/details/130565868

版权

NEWS 专栏收录该内容

6 篇文章

订阅专栏

在过去的20年里，机器学习工具在日常应用程序中的应用程度稳步上升，如搜索引擎、推荐系统、语言翻译工具、图像编辑应用程序、健康应用程序等等。随着人工智能生成工具的出现，一个新的阶段可能会开始，这些工具由大型语言模型（LLM）提供动力，如文本的ChatGPT和DALL-E或图像的稳定扩散，这使数百万人能够直接访问强大的创造性应用程序。许多新闻文章和评论都是为了讨论LLM及其下游应用程序的机会、破坏性的社会影响和伦理问题。例如，一篇通信文章讨论了高等教育在允许或禁止学生使用ChatGPT和相关工具方面所面临的困境.

随着科技公司竞相开发新的、更强大和多功能的llm版本，跟上这一领域的发展具有挑战性。就在最近几周，Meta在2月24日报告了他们的LLaMA模型；谷歌在3月10日宣布了PaLM-E，这是PaLM语言模型的多模式版本，包含了机器人传感器数据；百度在3月15日推出了基于llm的聊天机器人epenAI在3月14日发布了他们的下一个GPT版本—GPT-4；GitHub在3月22日宣布了CopX，采用了GPT-4和Chatbot功能来支持代码开发人员的使用。

然后是政策和道德方面的回应。Getty Images起诉稳定人工智能— Stable Diffusion的创造者—侵犯版权；意大利禁止ChatGPT；加拿大联邦隐私监督机构对ChatGPT的隐私问题展开了调查；据广泛报道的那样，未来生命研究所的一封呼吁暂停“巨型AI”至少6个月的公开信，已被数千人签署，其中包括著名的人工智能研究人员和评论员。几天之内，人工智能伦理专家的回应似乎批评了这封公开信助长了炒作，忽视了人工智能系统持续的社会危害，这些事情通过暂停6个月可以解决。

事态发展的规模和前所未有的持续广泛公众兴趣，使得专家和相关各方都难以了解最新的人工智能突破。LLM和人类语言理解之间的联系被研究者们激烈地争论着。一种保守的观点是，LLM非常擅长对下一个词的预测，与任何对语言的真正理解都无关。像ChatGPT这样的聊天机器人似乎对所有事情都有一个自信的答案，但它也会犯简单的事实和概念上的错误。这可以说是因为llm没有真实的经验，也没有以非语言的方式理解现实世界。他们学习语言的“形式”，但没有意义，正如艾米丽·本德和亚历山大·科勒2020年的一篇有影响力的论文所说。另一方面，语言在人类大脑中的处理方式至少会包含某种对下一个词的预测，并且在llm和人类语言之间可能会有共享的计算原则。

这场关于“理解”和LLM的辩论中，人们经常指出，这些模型在物理世界中缺乏基础。但是，意义和理解真的需要感官基础吗？在最近的一次关于深度学习、认知科学、神经科学、哲学和语言学的会议上，六位专家讨论了这个基本问题。当然，答案并不简单。小组成员之一，来自布朗大学和谷歌AI的艾莉·帕夫利克指出，人类的理解和知识是通过语言传递的，在没有感官基础的情况下对世界有很好的理解。她的团队在2021年发表了一项研究，报告称GPT-3可以在网格世界中学习“北”和“左”等概念。他们推断，一个模型有可能仅从文本中设计出一个概念结构，看起来就像一个模型在一个扎根的世界中交互时会学到的东西。

开发LLM的下一步是将它们与多模式功能结合起来，包括感官输入。OpenAI的GPT-4已经被训练为一种多模态模型，但在撰写本文时，分析甚至生成图像的能力还没有在发布演示之外显示出来，也不能供公众使用。除了文本之外，对图像的训练可以被视为人类经验中更牢固地基础文本的解决方案，也可以被视为添加更多无基础的数据。添加像谷歌的PaLM-E模型这样的感官数据可能会为LLM带来一个新的增长。

对于大型语言模型来说，这显然是令人兴奋的时期。其潜在的方法——将预训练与Transformer体系结构相结合——改变了许多科研领域的游戏规则，如材料发现、分子特性预测和蛋白质设计。其他有趣的发展是通过仔细的参数调整来提高llm的效率，或者，不是进一步扩展模型，使它们更小的同时保持类似的能力；斯坦福大学的研究人员开发了 Alpaca模型，这是LLaMA的微调版本，使用GPT-3生成的文本进行训练，作者说，复制成本只有600美元。具有明确内部对话的较小模型的一个潜在优势是，可以更容易地解释达到输出的推理。

在最近的预印本中，微软的研究人员报告了一系列实验，以证明GPT-4强大的性能，，得出结论，存在“人工通用智能的火花”。这篇论文很快就受到了专家们的抨击。LLM显然能够处理一系列复杂的任务，而利用语言的力量被广泛证明的可能性提供了令人兴奋的、令人惊讶的科学机会—而没有触及人工智能这一难以捉摸的一般智能的概念。

消息来源：nature machine intelligence Volume 5 | April 2023 | 331–332 | 331

-------------------------------------------

欢迎点赞收藏转发！

下次见！