大模型技术及趋势总结

程序员二飞

于 2024-06-30 19:37:17 发布

阅读量862

点赞数 23

文章标签：人工智能语言模型自然语言处理学习

本文链接：https://blog.csdn.net/xiangxueerfei/article/details/140085136

版权

前言

本篇文章旨在希望大家对大模型的本质、技术和发展趋势有简单的了解。由于近期大模型技术发展很快，这里对大模型的技术、本质及未来趋势进行总结和探讨时，水平有限，疏漏在所难免，请大家谅解。

引言

在今年的敏捷团队建设中，我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢？由此我的Runner探索之旅开始了！

大模型将成为通用人工智能的重要途径。在这个由0和1编织的数字时代，人工智能的腾飞已不是科技梦想，而是日益切实的现实。其中，大模型作为人工智能的核心力量，正以前所未有的方式重塑着我们的生活、学习和工作。无论是智能语音助手、自动驾驶汽车，还是医疗诊断系统，大模型都是幕后英雄，让这些看似不可思议的事情变为可能。

人工智能的发展历史

理解，首先 MCube 会依据模板缓存状态判断是否需要网络获取最新模板，当获取到模板后进行模板加载，加载阶段会将产物转换为视图树的结构，转换完成后将通过表达式引擎解析表达式并取得正确的值，通过事件解析引擎解析用户自定义事件并完成事件的绑定，完成解析赋值以及事件绑定后进行视图的渲染，最终将

1. 1950s-1970s：AI的诞生和早期发展

◦1950年，图灵测试的提出，为机器智能提供了一个评估标准。

◦1956年，达特茅斯会议标志着人工智能作为一门学科的正式诞生。

◦1960年代，早期的AI研究集中在逻辑推理和问题解决上。

2. 1980s：专家系统的兴起

◦专家系统的成功应用，如MYCIN在医学诊断领域的应用。

◦机器学习算法开始发展，如决策树和早期的神经网络。

3. 1990s：机器学习的进展

◦反向传播算法的提出，极大地推动了神经网络的研究。

◦1997年，IBM的深蓝击败国际象棋世界冠军，展示了AI在策略游戏中的能力。

4. 2000s：大数据和计算能力的提升

◦互联网的普及带来了海量数据，为机器学习提供了丰富的训练素材。

◦计算能力的提升，尤其是GPU的广泛应用，加速了深度学习的发展。

5. 2010s：深度学习革命

◦2012年，AlexNet在ImageNet竞赛中的胜利，标志着深度学习在图像识别领域的突破。

◦深度学习在语音识别、自然语言处理等领域取得显著进展。

图片来源 https://blog.csdn.net/Ares_song/article/details/106880658

6. 2017年：Transformer和自注意力机制

◦2017年，Transformer模型的提出，引入了自注意力机制，极大地提升了模型的性能。

◦Transformer模型在自然语言处理任务中取得了革命性的成果，如BERT、GPT等模型。

7. 2020s：大模型和多模态学习

◦大模型如chatGPT、Claude、Gemini、Llama、chatglm、Kimi等等都展示了强大的能力。

◦多模态学习的发展，如CLIP模型，能够理解和生成跨模态内容。

大模型的本质

大模型是能够从海量数据中学习、利用这些数据进行推理，并使用这些推理来回答用户的问题或是执行特定的任务。大模型（如ChatGPT、LLM等）在人工智能领域中被广泛应用，其核心理念和工作原理可以总结为以下几个方面：

1. LLM的组成 - 两个文件

大模型由以下两个关键部分构成：一个是参数集，另一个是执行代码。

•参数集：这是模型的"大脑"，包含了通过训练学习到的神经网络权重。

•执行代码：这是模型的"引擎"，包含用于运行参数集的软件代码，可以采用任何编程语言实现。

训练大模型需要对大量互联网数据进行有损压缩，是一项计算量更大的任务，通常需要一个巨大的GPU集群。

有趣的是，你只需要一台标准的计算机就可以运行像Llama-3这样的LLM并得出推论。在本地服务器上运行，因此，甚至不需要互联网连接。

‍2. LLM的神经网络究竟在“想”什么 - 预测下一个单词

大模型的核心功能之一‍是预测文本序列中的下一个单词：

•输入一个“部分”句子，如“cat sat on a”。

•利用分布在网络中的参数及其连接关系预测下一个最可能的单词，并给出概率。如“mat（97%）”

•模拟了人类语言生成的方式，使得模型能够生成连贯和符合语境的句子，如生成完整的句子“cat sat on a mat”

模型根据它所获得的大量训练数据，生成“合理的延续”，即生成符合人类语言习惯的文本。

注：Transformer架构为这个神经网络提供了动力。

图片来源 A Busy Person’s Introduction to Large Language Models（https://www.openculture.com/2023/12/a-busy-persons-introduction-to-large-language-models-llms.html)

3. 神经网络“真正”的工作方式仍然是个谜

尽管我们可以将数十亿个参数输入到网络中，并通过反复微调训练这些参数，从而获得更好的预测效果，但我们并不完全理解这些参数在网络中是如何准确协作的，以及为什么它们能够生成如此准确的回答。科学上，这种现象被称为涌现。

我们知道，这些参数构建并维护了某种形式的知识数据库。然而，这种数据库有时表现得既奇怪又不完美。例如，一个大型语言模型（LLM）可能会正确回答“谁是小明的母亲？”这个问题，但如果你问它“X的儿子是谁？”，它可能会回答“我不知道”。这种现象通常被称为递归诅咒。

4. 训练大模型的步骤

预训练，训练需要对大量互联网数据进行有损压缩，输出参数文件

•收集大量互联网文本数据。

•准备强大的计算资源，如GPU集群。

•执行训练，生成基本模型。

微调‍阶段：

•准备高质量的训练数据，如问答对。

•在这些数据上调整模型参数，优化性能。

•进行评估和部署，确保模型达到预期效果。

图片来源 A Busy Person’s Introduction to Large Language Models（https://www.openculture.com/2023/12/a-busy-persons-introduction-to-large-language-models-llms.html）

微调阶段 - 比较

对于每个问题，人工标注者都会比较辅助模型的多个答案，并标注出最佳答案。这一步骤称为从人类反馈中强化学习（RLHF）。

5. 模型性能提升

1）模型越大，能力越强：

◦参数量：模型的规模通常与其参数量成正比。参数是模型学习到的知识的载体，参数越多，模型能够捕捉的信息和模式就越丰富，从而能够处理更复杂的任务。

◦学习能力：大模型通常拥有更强的学习能力。它们能够从大量数据中学习到更深层次的特征和规律，这使得它们在诸如自然语言处理、图像识别等任务上表现更佳。

◦泛化能力：大模型往往有更好的泛化能力，即在面对未见过的数据时，也能做出准确的预测和判断。

2）工具越多，能力越强：

◦功能扩展：为AI模型提供各种工具，可以使其功能得到显著扩展。例如，集成搜索引擎可以让模型访问互联网信息，增强其回答问题的能力。

◦多任务处理：工具的集成使得AI模型能够同时处理多种任务。例如，集成计算器功能可以让模型执行数学计算，集成编程接口则可以让模型编写代码。

◦灵活性和适应性：拥有多种工具的AI模型更加灵活和适应性强，能够根据任务需求快速调整其行为和策略。类似于人类通过使用工具解决各种任务。

面临的问题

幻觉

幻觉问题指的是大模型在生成文本时可能会产生与现实世界事实不一致的内容。这种现象可以分为几种类型:

1. 事实性幻觉（Factuality Hallucination）：模型生成的内容与可验证的现实世界事实不一致。大模型可能生成听起来合理但实际上错误的信息，例如，生成一篇关于一个不存在的历史事件的文章，模型可能生成一篇关于“拿破仑在月球上宣布法国胜利”的文章，尽管这在现实中从未发生过。

2. 忠实性幻觉（Faithfulness Hallucination）：模型生成的内容与用户的指令或上下文不一致。例如在一个关于健康饮食的讨论中，模型可能突然开始讨论健身运动，尽管这与用户的问题不直接相关。

产生幻觉的‍原因可能包括：

•使用的数据集存在错误信息或偏见。

•模型过度依赖训练数据中的模式，可能导致错误的关联。

•预训练阶段的架构缺陷，如基于前一个token预测下一个token的方式可能阻碍模型捕获复杂的上下文关系。

•对齐阶段的能力错位，即模型的内在能力与标注数据中描述的功能之间可能存在错位。

为了缓解幻觉问题，研究者们提出了多种方法，如改进预训练策略、数据清理以消除偏见、知识编辑、检索增强生成（RAG）等。

安全性问题

安全性问题涉及大模型可能遭受的恶意攻击和滥用，以及它们对用户隐私和数据安全的潜在威胁:

1. 对抗样本攻击：攻击者可能构造特殊的输入样本，导致模型做出错误的预测。

2. 后门攻击：在模型中植入后门，使得在特定触发条件下模型表现出异常行为。

3. 成员推断攻击：攻击者尝试推断出训练集中是否包含特定的数据点。

4. 模型窃取：通过查询模型来复制其功能，侵犯模型版权。

5. 数据隐私泄露：模型可能泄露训练数据中的敏感信息。

‍为了提高大模型的安全性，业界和研究界正在探索多种安全防护策略，包括：

•加强数据的采集和清洗过程，确保数据质量和安全性。

•对模型进行加固，提高其抗攻击能力。

•采用加密存储和差分隐私技术来保护数据隐私。

•增强模型的可解释性，以便更好地理解和控制模型行为。

应用实例（简单列举）

斯坦福小镇

图片来源 Generative Agents（https://arxiv.org/pdf/2304.03442v1）

文生图图生图图生视频

LLM OS

图片来源 The LLM OS（https://medium.com/@marcelheinz/the-llm-os-a-glimpse-into-the-future-of-tech-with-andrej-karpathy-3bcbc0baf339）

上古卷轴破解

（图片来源 https://scrollprize.org/firstletters）

未来

‍‍随着AI技术的不断发现和进步，AI与人类的协同关系将不断演进和深化。我们期待着在未来，AI能够成为我们最得力的助手和伙伴，共同迎接更加智能和高效的未来。我们可以预见以下几个趋势：

•更高的自主性：AI将逐步从辅助工具发展为能够独立完成复杂任务的智能代理。这将解放人类的生产力，使我们能够专注于更具创造性和战略性的工作。

•更紧密的协同：AI与人类的协同方式将更加多样化和灵活化。通过改进人机交互界面和协同算法，AI将能够更好地理解人类的意图和需求，实现更高效的合作。

•广泛的应用场景：AI技术将渗透到各行各业，从医疗、教育到金融、制造业，AI将成为推动行业变革的重要力量。特别是在Agent模式下，AI将能够在更多领域中自主完成任务，带来前所未有的效率提升和创新机会。

读者福利：如果大家对大模型感兴趣，这套大模型学习资料一定对你有用

对于0基础小白入门：

如果你是零基础小白，想快速入门大模型是可以考虑的。

一方面是学习时间相对较短，学习内容更全面更集中。
二方面是可以根据这些资料规划好学习计划和方向。

包括：大模型学习线路汇总、学习阶段，大模型实战案例，大模型学习视频，人工智能、机器学习、大模型书籍PDF。带你从零基础系统性的学好大模型！

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

👉AI大模型学习路线汇总👈

大模型学习路线图，整体分为7个大的阶段：（全套教程文末领取哈）

第一阶段： 从大模型系统设计入手，讲解大模型的主要方法；

第二阶段： 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段： 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段： 大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段： 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段： 以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段： 以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。

👉大模型实战案例👈

光学理论是没用的，要学会跟着一起做，要动手实操，才能将自己的所学运用到实际当中去，这时候可以搞点实战案例来学习。

在这里插入图片描述

👉大模型视频和PDF合集👈

观看零基础学习书籍和视频，看书籍和视频学习是最快捷也是最有效果的方式，跟着视频中老师的思路，从基础到深入，还是很容易入门的。
在这里插入图片描述

👉学会后的收获：👈

• 基于大模型全栈工程实现（前端、后端、产品经理、设计、数据分析等），通过这门课可获得不同能力；

• 能够利用大模型解决相关实际项目需求： 大数据时代，越来越多的企业和机构需要处理海量数据，利用大模型技术可以更好地处理这些数据，提高数据分析和决策的准确性。因此，掌握大模型应用开发技能，可以让程序员更好地应对实际项目需求；

• 基于大模型和企业数据AI应用开发，实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能， 学会Fine-tuning垂直训练大模型（数据准备、数据蒸馏、大模型部署）一站式掌握；

• 能够完成时下热门大模型垂直领域模型训练能力，提高程序员的编码能力： 大模型应用开发需要掌握机器学习算法、深度学习框架等技术，这些技术的掌握可以提高程序员的编码能力和分析能力，让程序员更加熟练地编写高质量的代码。

👉获取方式：

😝有需要的小伙伴，可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

程序员二飞

关注

23
点赞
踩
9

收藏

觉得还不错? 一键收藏
打赏
0
评论
大模型技术及趋势总结

本篇文章旨在希望大家对大模型的本质、技术和发展趋势有简单的了解。由于近期大模型技术发展很快，这里对大模型的技术、本质及未来趋势进行总结和探讨时，水平有限，疏漏在所难免，请大家谅解。01引言在今年的敏捷团队建设中，我通过Suite执行器实现了一键自动化单元测试。Juint除了Suite执行器还有哪些执行器呢？由此我的Runner探索之旅开始了！大模型将成为通用人工智能的重要途径。在这个由0和1编织的数字时代，人工智能的腾飞已不是科技梦想，而是日益切实的现实。
复制链接

扫一扫