大模型--个人学习心得_大模型学习心得作业-CSDN博客

本文链接：https://blog.csdn.net/weixin_69365186/article/details/141818643

大模型LLM定义

大模型LLM，全称Large Language Model，即大型语言模型
LLM是一种基于Transformer架构模型，
它通过驯良大量文本数据，学习语言的语法、语义和上下文信息，
从而能够对自然语言文本进行建模
这种模型在自然语言处理(NLP)领域具有广泛应用

常见的13个大模型

BERT、GPT系列、T5、Meta的Llama系列、华为盘古模型、阿里巴巴通义大模型、
科大讯飞星火大模型、百度文心大模型、字节跳动云雀大模型、腾讯混元大模型
京东言犀大模型、商汤日日新大模型、搜狗百川智能

BERT：开启Transformer模型在NLP领域的革命，通过双向上下文预训练，极大提升了语言理解任务的表现
GPT系列：
(1)GPT：原始的GPT模型展示生成式预训练的有效性
(2)GPT-2：比初代规模更大，生成文本的能力更强
(3)GPT-3：非常大的语言模型，展示了在大量数据上进行预训练可以实现零样本和少样本学习的强大能力
T5：旨在统一多种文本处理任务，通过将所有任务视为文本到文本的转换问题来简化训练过程
Meta的Llama系列：Llama是Meta AI推出的一系列大型语言模型，旨在提供高效的自然语言处理能力
华为盘古模型：CV+NLP+多模态+预测+科学计算 (5大基础模型)，可实现文本生成、图片生成、代码生成、图片理解、气象预测、智能助手打造的多种功能
阿里巴巴通义大模型：覆盖语言、听觉、多模态等领域，致力于实现接近人类智慧的通用智能
科大讯飞星火大模型：拥有跨领域的知识和语言理解能力，能够基于自然对话方式理解与执行任务
百度文心大模型：已实现AI应用场景全覆盖，包括NLP、CV、跨模态、生物计算与行业大模型
字节跳动云雀大模型：基于云雀大模型开发了一款生成式AI助手"豆包"，可以实现
智能问答、文本生成、自动写作、语言合成等多种功能
腾讯混元大模型：涵盖NLP、CV、多模态、文生图等大模型，对内已和腾讯广告、微信、QQ、游戏等产品实现协同，并通过腾讯云对外商业化。
京东言犀大模型：主要聚焦于文本、语音、对话和数字人生成等4个方面开展工作。
商汤日日新大模型：已建立了全栈的大模型研发体系，并已在多个行业场景中落地。
搜狗百川智能：争取在年内发布国内最好的大模型和颠覆性的产品。

大模型按技术分类

三类：
Encoder-Only技术(最早的BERT模型)、
Encoder-Decoder技术(T5)、
Decoder-Only模型
(最繁荣发展的一类transformer模型,最早是GPT-1提出，此后包括Meta AI 、百度、Google、 Open AI、 Eleuthera AI等公司都提出了这种架构的模型)

大模型特点

五大特点：巨大的规模、涌现能力、更好的性能和泛化能力、多任务学习、幻觉、复读机问题

巨大的规模：参数数十亿，模型大小大于数百GB，促使大模型具有强大的表达能力和学习能力

涌现能力：涌现是一种现象，
许多小实体相互作用后产生大实体，大实体展现了其组成部分所不具有的特性
定义：引申到模型层面，涌现能力是指当模型训练数据达到一定规模，模型突然涌现组成部分没有的、意料之外且能够综合分析和解决更深层次问题的复杂能力和特性，展现出类似于人类的思维和智能
涌现能力也是大模型最显著的特点之一

更好的性能和泛化能力：大模型通常具有更强大的学习能力和泛化能力，任务表现出色(自然语言处理、图像识别、语言识别等)

多任务学习：大模型通常会一起学习多种不同的NLP任务(机器翻译、文本摘要、问答系统等)
这可以是模型学习到更广泛的泛化的语言理解能力

幻觉：
定义：大模型在面对默写输入时，产生不准确、不完整或误导性的输出
使用人类反馈强化学习和检索增强是当前解决大模型幻觉问题两个重要的技术方向

复读机问题：
定义：大型语言模型(LLMS)在生成问题时出现的一种现象，即模型倾向于无限的复制输入文本或以过度频繁的方式重复相同的句子或短语
这种现象使得模型的输出缺乏多样性和创造性，给用户带来了不好的体验