自然语言处理
文章平均质量分 94
Aleafy
这个作者很懒,什么都没留下…
展开
-
【中文信息处理复习笔记】语言模型
文章目录一、定义二、数据平滑三、基于词类的N-gram模型四、统计语言模型的评价标准五、统计语言模型的不足之处一、定义这样的方法存在两个致命的缺陷:參数空间过大:条件概率P(wn|w1,w2,…,wn-1)的可能性太多,无法估算,不可能有用;假设模型训练的词表为V,采用N元模型,则理论上的参数空间大小为|V|的N次方(考虑词的组合)。数据稀疏严重:对于非常多词对的组合,在语料库中都没有出现,依据最大似然估计得到的概率将会是0。N-gram模型由于数据稀疏和系统处理能力的限制,引入了马尔科原创 2021-11-10 13:21:18 · 792 阅读 · 0 评论 -
GPT模型中的计算
计算步骤模型框架输入Embedding多层transformer的block (12层)拿到两个输出端结果计算损失反向传播更新参数下面主要介绍上述步骤中的2.Embedding和3.transformer的block层EmbeddingEmbedding层就是以one hot为输入、中间层节点为字向量维数的全连接层。而这个全连接层的参数,就是一个“字向量表”。实现text输入维度的变换。Embedding操作(此处指text embedding)实际上是一个查表操作,one原创 2021-08-16 00:11:51 · 1545 阅读 · 0 评论 -
GPT模型总结【模型结构及计算过程_详细说明】
GPT模型GPT模型:生成式预训练模型(Generative Pre-Training)总体结构:无监督的预训练有监督的下游任务精调核心结构:中间部分主要由12个Transformer Decoder的block堆叠而成下面这张图更直观地反映了模型的整体结构:模型描述GPT 使用 Transformer的 Decoder 结构,并对 Transformer Decoder 进行了一些改动,原本的 Decoder 包含了两个 Multi-Head Attention 结构,GPT 只保原创 2021-08-12 20:00:37 · 45690 阅读 · 8 评论