大模型学习

最新推荐文章于 2025-02-22 16:36:24 发布

zhazhawoaini

最新推荐文章于 2025-02-22 16:36:24 发布

阅读量644

点赞数

文章标签：学习人工智能

本文链接：https://blog.csdn.net/zhazhawoaini/article/details/132718167

版权

大模型

大规模语言模型（Large Language Model）简称，具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域，指具有数百万到数十亿参数的神经网络模型。
优点：
更强大、更准确的模型性能，可面对复杂庞大数据集或任务。
学习更细微的模式和规律，具有更强泛化和表达能力。
1.模型碎片化，大模型提供预训练方案
预训练大模型+下游任务微调
2.大模型具备自监督学习功能，降低训练研发成本
3.大模型有望进一步突破现有模型结构的精度局限
缺点：
资源消耗大，需要大量计算资源、存储空间，对计算设备要求高。
训练时间较长，随着参数规模增大，训练时长也增大。
对数据集需求高，若训练数据不充足或不平衡，将导致模型过拟合或性能下降。

DeepSpeed

ZeRO(零冗余优化器)：扩大规模、内存优化、提升速度、控制成本

MindSpore

静态图模式下，融合了流水线并行、模型并行、数据并行，只需编写单机算法代码，添加少量并行标签，即可实现训练过程自动切分，让并行算法性能调优时间从月级降为小时级，训练性能也提高40%。
动态图模式下，使用函数式微分设计，轻易从一阶微分扩展到高阶微分，对整图性能优化，大幅提升动态图性能。结合创新的通讯算子融合多流并行机制，动态图性能提升60%。

AI大模型

人工智能预训练大模型的简称，含义1：预训练，含义2：大模型

优点

1.上下文理解能力
2.语言生成能力
3.学习能力强
4.可迁移性高。学习到的知识和能力可以在不同任务和领域中迁移和应用，无需重新训练。

发展

多层感知机（Multi-Layer Perceptron，MLP）

包括输入层、隐藏层和输出层。输入层接收原始数据作为输入，隐藏层通过一系列非线性变换将输入进行特征提取和转换，输出层产生模型的预测结果。
工作原理：通过权重和偏置参数对输入数据进行线性组合和非线性激活，以学习和表示输入数据之间的复杂关系。通过反向传播算法，MLP可以根据预定义的损失函数进行训练和优化，使输出接近目标值。在分类和回归使用多，扩展为卷积神经网络CNN和循环神经网络RNN。

循环神经网络

处理序列数据的神经网络模型，引入循环连接，让网络对先前信息记忆和利用。允许信息在时间上传递，更好的捕捉序列中上下文信息，有助于自然语言处理、语音识别等。
网络的输出不仅依赖于当前输入，还依赖于之前的输入和隐藏状态。隐藏状态可以看作是网络对之前输入的记忆，在每个时间步都会被更新，并传递给下一个时间步。
RNN的循环连接让网络对序列数据进行建模，能够捕捉序列中的时序信息和依赖关系。
传统的RNN在处理长序列式存在梯度消失和梯度爆炸问题，难以捕捉长距离的依赖关系，改进为长短时记忆网络和门控循环单元GRU，用门控机制改进梯度传播和记忆能力。

卷积神经网络

处理网格数据结构，如图像、语音和时间序列，通过局部连接、权值共享和池化，有效减少了参数数量，用于图像处理和计算机视觉。
用卷积和池化运算有效提取图像特征。用多层堆叠的卷积层和全连接层进行特征提取和分类。包括卷积层、激活函数、池化层和全连接层。卷积层用一组可学习的滤波器对输入数据进行卷积操作，提取空间特征。激活函数引入非线性变换，增强模型的表达能力。池化层减少特征图的尺寸和数量，降低计算复杂度，保留重要特征。全连接层将汇集的特征映射转化为模型的最终输出。
应用于计算机视觉，如图像分类、目标检测和图像分割。通过共享权重和局部连接，减少了参数量，提高了模型的效率和泛化能力。

深度信念网络

用于学习数据的潜在表示和特征提取，可逐层预训练的深度模型。每一层无监督的预训练，避免大量标注数据，学习到数据的分布特征，提取出高级的抽象特征表示。有监督的微调。通过层层堆叠的方式逐渐学习数据的分布特征。

分类

按照模型数据：语言模型，图像模型，多模态模型
按照模型开发模式：
开源大模型，可免费获取和使用，开放的代码使用户自由地查看、修改和定制模型，以适应特定需求和任务。比如Transformers、BERT、ChatGLM。强调代码的开放性和自由性。
在线大模型，部署在云端或网络上的大型机器学习或深度学习模型，由云服务提供商或在线平台提供，通过接口或API的方式访问或使用。用户无需关注底层硬件和软件架构，只需通过网络请求即可获得模型的预测结果。可实时或按需的模型调用。提供方便、快捷和按需的模型服务。

GPT模型

生成式预训练Transformer模型（Generative Pre-trained Transformer）简称
应用：自动文本生成，语义理解，情感分析和舆情监测。
大模型+PRA：前者提供自然语言理解及逻辑知识的归纳泛化能力，后者基于实在智能自研的智能屏幕语义理解技术ISSUT，实现和计算机的自动化交互及完成指令动作。
大模型+IDP：借助TARS垂直大模型的语言理解和深度学习能力，为用户提供与文档直接对话能力。
GPT-1：上亿规模的参数量，数据集使用了一万本书的BookCorpus，25亿单词量
GPT-2：15亿规模参数量，数据来自互联网，使用800万在Reddit被链接过的网页数据，清洗后约40GB
GPT-3：首次突破百亿参数量，到1750亿，训练数据超过45TB，数据集将语料规模扩大到570GB的CC数据集（4千词）+WebText2（190亿词）+BookCorpus（670亿词）+维基百科（30亿词）

行业大模型

在特定行业领域应用的大型语言模型，更专注于某个特定行业，比如金融、医疗、法律等。

营销大模型

运用人机交互，让广告主回归本质，专注于自身经营策略和消费者理解，避免繁复关键词和爆炸数据。
1.让广告主自由表达营销策略，不纠结关键词，直接把需要推广的产品/服务、广告的目标人群告诉大模型，大模型就能够理解人类意图，自动生成营销方案。
避免关键词疏漏造成的营销信息丢失。
2.基于生成式AI，根据用户搜索词、兴趣、意图，秒级生成广告文案、图片素材。
3.多维度流量洞察：自动完成数据可视化和重要数据摘要，提升投放数据分析效率。
4.端到端分配，序列化决策，提升分配效率。端到端计费，学习历史不同状态下的最优计费，大幅提升成本达成率。

轻舸

垂直大模型：以文心大模型为核心
1.结合微调、检索增强生成，让AI理解营销行业知识，缓解大模型幻觉问题
2.主动规划：通过提示工程，让AI扮演主动引导用户表达需求、完成营销策略生成的角色。
3.记忆：给AI加上场景识别和长期记忆能力，把投放行为和投放表达记住，方便后续方案跟进调整。
4.工具使用：让大模型学会使用第三方工具，比如调用投放系统，生成文案、图片素材的插件。
解决的问题：
1.表达
需求转为关键词，系统再根据关键词去执行策略，两层损失。
→直接理解，多轮对话中引导用户表达出更丰富的需求。
2.管理
累积计划、创意、关键词很多
→高效分析解读和优化调整数据
3.使用
80%功能不会用，或不知道其存在。
→使用自然语言交互，让用户可以自由表达、随时反馈，另外80%的功能可以由AI在对话中主动引导，人机协同地去使用。
人机交流更顺畅，机器迭代速度加快，人类拿到反馈速度加快。
内容和经营两大方向。
内容插件背景为AIGC创意平台擎舵。擎舵平台主打多模态创意生成，可轻松实现文案生成、图片生成和数字人视频制作三大需求。速度加快，成本降低。
经营使用百度的品牌 BOT，其具有识别用户意图并提供相应回复的能力，也可以定制专属数字人形象，多种样式及可定制化形象。