吴恩达：四个步骤，让大模型变得更好

最新推荐文章于 2024-08-06 17:39:42 发布

雪碧没气阿

最新推荐文章于 2024-08-06 17:39:42 发布

阅读量908

点赞数 21

文章标签：人工智能开源 chatgpt 大模型语言模型 ai

本文链接：https://blog.csdn.net/xxue345678/article/details/139021538

版权

本周，生成式 AI 的竞争达到了新的高潮。

前有 OpenAI 抢先发布 GPT-4o，后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。

自 2022 年 11 月 OpenAI 推出 ChatGPT，至今已有 18 个月。学界、业界为了提升生成式 AI 模型的能力，做出了诸多努力。

今天，著名人工智能学者、斯坦福大学教授吴恩达高度总结了提升生成式 AI 模型能力的方式，主要包括：1）提升模型的推理能力；2）扩展上下文窗口，并撰写一篇博客阐述了一套通用且高效的 prompt 策略。

我们对博客内容进行了不改变原意的编译、整理，以下是博客内容：

本周，谷歌宣布将 Gemini Pro 1.5 的输入上下文窗口扩大一倍，从 100 万 token 扩展到 200 万 token；OpenAI 发布了 GPT-4o，它的生成速度是 GPT-4 Turbo 的 2 倍，而且便宜 50%，原生支持输入、生成多模态 token。这是 18 个月以来的最新进展。

自 2022 年 11 月 ChatGPT 推出以来，随着 GPT-4、Gemini 1.5 Pro、Claude 3 Opus 和 Llama 3-70B 的发布等重要里程碑的到来，许多模型提供商通过两个重要方式提高了自己的能力：

提升模型的推理能力，使 LLM 能够思考复杂的概念并遵循复杂的指令；
更长的输入上下文窗口。

GPT-4 和其他高级模型的推理能力使它们非常擅长解释带有详细说明的复杂 prompt。许多人习惯向 LLM 快速提出 1 - 2 句话的查询。相比之下，在构建应用程序时，我看到经验丰富的团队经常编写可能长达 1 - 2 页的 prompt（我的团队称其为「mega-prompt」），这些 prompt 提供复杂的指令来详细说明我们希望 LLM 如何执行一个任务。我仍然认为团队在编写详细指令方面做得不够好。有关中等长度 prompt 的示例，请查看 Claude 3 的系统 prompt，详细且为 Claude 应该如何执行任务提供了明确的指导。

在这里插入图片描述

这是一种与我们通常在 LLM 网络用户界面中使用的非常不同的 prompt 方式。在这种方式中，我们可能会快速进行查询，如果响应不满意，则通过与聊天机器人反复对话来表述清楚我们想要什么。

此外，输入上下文窗口长度的增加为开发人员的工具箱添加了另一种技术。GPT-3 激发了关于小样本上下文学习的大量研究。例如，如果您使用 LLM 进行文本分类，您可能会提供一些（例如 1 - 5 个）文本片段及其类别标签的样本，以便它可以泛化到其他文本。

GPT-4o 接受 128000 个输入 token，Claude 3 Opus 200000 个 token，Gemini 1.5 Pro 100 万个 token（200 万个 token 目前仅适用于预览版）。然而，随着输入上下文窗口变得越来越长，人们发现 LLM 并不局限于少数样本。通过多样本（many-shot）学习，开发人员可以在 prompt 中给出数十个甚至数百个样本，这比少样本（few-shot）学习效果更好。

在构建复杂的工作流时，我看到开发人员通过如下过程获得了良好的结果：

编写快速、简单的 prompt，看看效果如何。
根据输出不足的地方，迭代地充实 prompt。这通常会导致更长、更详细的 prompt，甚至可能是「mega-prompt」。
如果这仍然不够，请考虑少样本或多样本学习（如果适用），或者不太频繁地进行微调。
如果仍然不能产生您需要的结果，请将任务分解为子任务并应用[智能体工作流]

我希望这个过程能够帮助大家更轻松地构建应用程序。

如何学习AI大模型？

作为一名热心肠的互联网老兵，我决定把宝贵的AI知识分享给大家。至于能学习到多少就看你的学习毅力和能力了。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN，朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】

在这里插入图片描述

一、全套AGI大模型学习路线

AI大模型时代的学习之旅：从基础到前沿，掌握人工智能的核心技能！

二、640套AI大模型报告合集

这套包含640份报告的合集，涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展，AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型，如GPT-3、BERT、XLNet等，以其强大的语言理解和生成能力，正在改变我们对人工智能的认识。那以下这些PDF籍就是非常不错的学习资源。

四、AI大模型商业化落地方案

作为普通人，入局大模型时代需要持续学习和实践，不断提高自己的技能和认知水平，同时也需要有责任感和伦理意识，为人工智能的健康发展贡献力量。

雪碧没气阿

关注

21
点赞
踩
25

收藏

觉得还不错? 一键收藏
0
评论
吴恩达：四个步骤，让大模型变得更好

本周，生成式 AI 的竞争达到了新的高潮。前有 OpenAI 抢先发布 GPT-4o，后有谷歌在 I/O 开发者大会上发布一系列生成式人工智能模型与产品。自 2022 年 11 月 OpenAI 推出 ChatGPT，至今已有 18 个月。学界、业界为了提升生成式 AI 模型的能力，做出了诸多努力。今天，著名人工智能学者、斯坦福大学教授吴恩达高度总结了提升生成式 AI 模型能力的方式，主要包括：1）提升模型的推理能力；2）扩展上下文窗口，并撰写一篇博客阐述了一套通用且高效的 prompt 策略。
复制链接

扫一扫