大模型
大规模语言模型(Large Language Model)简称,具有庞大的参数规模和复杂程度的机器学习模型。在深度学习领域,指具有数百万到数十亿参数的神经网络模型。
优点:
更强大、更准确的模型性能,可面对复杂庞大数据集或任务。
学习更细微的模式和规律,具有更强泛化和表达能力。
1.模型碎片化,大模型提供预训练方案
预训练大模型+下游任务微调
2.大模型具备自监督学习功能,降低训练研发成本
3.大模型有望进一步突破现有模型结构的精度局限
缺点:
资源消耗大,需要大量计算资源、存储空间,对计算设备要求高。
训练时间较长,随着参数规模增大,训练时长也增大。
对数据集需求高,若训练数据不充足或不平衡,将导致模型过拟合或性能下降。
DeepSpeed
ZeRO(零冗余优化器):扩大规模、内存优化、提升速度、控制成本
MindSpore
静态图模式下,融合了流水线并行、模型并行、数据并行,只需编写单机算法代码,添加少量并行标签,即可实现训练过程自动切分,让并行算法性能调优时间从月级降为小时级,训练性能也提高40%。
动态图模式下,使用函数式微分设计,轻易从一阶微分扩展到高阶微分,对整图性能优化,大幅提升动态图性能。结合创新的通讯算子融合多流并行机制,动态图性能提升60%。
AI大模型
人工智能预训练大模型的简称,含义1:预训练,含义2:大模型
优点
1.上下文理解能力
2.语言生成能力
3.学习能力强
4.可迁移性高。学习到的知识和能力可以在不同任务和领域中迁移和应用,无需重新训练。
发展
多层感知机(Multi-Layer Perceptron,MLP)
包括输入层、隐藏层和输出层。输入层接收原始数据作为输入,隐藏层通过一系列非线性变换将输入进行特征提取和转换,输出层产生模型的预测结果。
工作原理:通过权重和偏置参数对输入数据进行线性组合和非线性激活,以学习和表示输入数据之间的复杂关系。通过反向传播算法,MLP可以根据预定义的损失函数进行训练和优化,使输出接近目标值。在分类和回归使用多,扩展为卷积神经网络CNN和循环神经网络RNN。
循环神经网络
处理序列数据的神经网络模型,引入循环连接,让网络对先前信息记忆和利用。允许信息在时间上传递,更好的捕捉序列中上下文信息,有助于自然语言处理、语音识别等。
网络的输出不仅依赖于当前输入,还依赖于之前的输入和隐藏状态。隐藏状态可以看作是网络对之前输入的记忆,在每个时间步都会被更新,并传递给下一个时间步。
RNN的循环连接让网络对序列数据进行建模,能够捕捉序列中的时序信息和依赖关系。
传统的RNN在处理长序列式存在梯度消失和梯度爆炸问题,难以捕捉长距离的依赖关系,改进为长短时记忆网络和门控循环单元GRU,用门控机制改进梯度传播和记忆能力。
卷积神经网络
处理网格数据结构,如图像、语音和时间序列,通过局部连接、权值共享和池化,有效减少了参数数量,用于图像处理和计算机视觉。
用卷积和池化运算有效提取图像特征。用多层堆叠的卷积层和全连接层进行特征提取和分类。包括卷积层、激活函数、池化层和全连接层。卷积层用一组可学习的滤波器对输入数据进行卷积操作,提取空间特征。激活函数引入非线性变换,增强模型的表达能力。池化层减少特征图的尺寸和数量,降低计算复杂度,保留重要特征。全连接层将汇集的特征映射转化为模型的最终输出。
应用于计算机视觉,如图像分类、目标检测和图像分割。通过共享权重和局部连接,减少了参数量,提高了模型的效率和泛化能力。
深度信念网络
用于学习数据的潜在表示和特征提取,可逐层预训练的深度模型。每一层无监督的预训练,避免大量标注数据,学习到数据的分布特征,提取出高级的抽象特征表示。有监督的微调。通过层层堆叠的方式逐渐学习数据的分布特征。
分类
按照模型数据:语言模型,图像模型,多模态模型
按照模型开发模式:
开源大模型,可免费获取和使用,开放的代码使用户自由地查看、修改和定制模型,以适应特定需求和任务。比如Transformers、BERT、ChatGLM。强调代码的开放性和自由性。
在线大模型,部署在云端或网络上的大型机器学习或深度学习模型,由云服务提供商或在线平台提供,通过接口或API的方式访问或使用。用户无需关注底层硬件和软件架构,只需通过网络请求即可获得模型的预测结果。可实时或按需的模型调用。提供方便、快捷和按需的模型服务。
GPT模型
生成式预训练Transformer模型(Generative Pre-trained Transformer) 简称
应用:自动文本生成,语义理解,情感分析和舆情监测。
大模型+PRA:前者提供自然语言理解及逻辑知识的归纳泛化能力,后者基于实在智能自研的智能屏幕语义理解技术ISSUT,实现和计算机的自动化交互及完成指令动作。
大模型+IDP:借助TARS垂直大模型的语言理解和深度学习能力,为用户提供与文档直接对话能力。
GPT-1:上亿规模的参数量,数据集使用了一万本书的BookCorpus,25亿单词量
GPT-2:15亿规模参数量,数据来自互联网,使用800万在Reddit被链接过的网页数据,清洗后约40GB
GPT-3:首次突破百亿参数量,到1750亿,训练数据超过45TB,数据集将语料规模扩大到570GB的CC数据集(4千词)+WebText2(190亿词)+BookCorpus(670亿词)+维基百科(30亿词)
行业大模型
在特定行业领域应用的大型语言模型,更专注于某个特定行业,比如金融、医疗、法律等。
营销大模型
运用人机交互,让广告主回归本质,专注于自身经营策略和消费者理解,避免繁复关键词和爆炸数据。
1.让广告主自由表达营销策略,不纠结关键词,直接把需要推广的产品/服务、广告的目标人群告诉大模型,大模型就能够理解人类意图,自动生成营销方案。
避免关键词疏漏造成的营销信息丢失。
2.基于生成式AI,根据用户搜索词、兴趣、意图,秒级生成广告文案、图片素材。
3.多维度流量洞察:自动完成数据可视化和重要数据摘要,提升投放数据分析效率。
4.端到端分配,序列化决策,提升分配效率。端到端计费,学习历史不同状态下的最优计费,大幅提升成本达成率。
轻舸
垂直大模型:以文心大模型为核心
1.结合微调、检索增强生成,让AI理解营销行业知识,缓解大模型幻觉问题
2.主动规划:通过提示工程,让AI扮演主动引导用户表达需求、完成营销策略生成的角色。
3.记忆:给AI加上场景识别和长期记忆能力,把投放行为和投放表达记住,方便后续方案跟进调整。
4.工具使用:让大模型学会使用第三方工具,比如调用投放系统,生成文案、图片素材的插件。
解决的问题:
1.表达
需求转为关键词,系统再根据关键词去执行策略,两层损失。
→直接理解,多轮对话中引导用户表达出更丰富的需求。
2.管理
累积计划、创意、关键词很多
→高效分析解读和优化调整数据
3.使用
80%功能不会用,或不知道其存在。
→使用自然语言交互,让用户可以自由表达、随时反馈,另外80%的功能可以由AI在对话中主动引导,人机协同地去使用。
人机交流更顺畅,机器迭代速度加快,人类拿到反馈速度加快。
内容和经营两大方向。
内容插件背景为AIGC创意平台擎舵。擎舵平台主打多模态创意生成,可轻松实现文案生成、图片生成和数字人视频制作三大需求。速度加快,成本降低。
经营使用百度的品牌 BOT,其具有识别用户意图并提供相应回复的能力,也可以定制专属数字人形象,多种样式及可定制化形象。
大型语言模型
有巨大的模型参数和能力,可自动学习语言的规则、模式和语义,从而生成连贯准确的文本。应用于自然语言处理、机器翻译、文本生成等。