2022清华暑校笔记之L1_NLP和Bigmodel基础

鸭脖没了

已于 2022-07-12 22:25:07 修改

阅读量562

点赞数

分类专栏：深度学习文章标签：自然语言处理学习机器学习

于 2022-07-12 16:26:22 首次发布

本文链接：https://blog.csdn.net/zty5556666/article/details/125745817

版权

深度学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

本文介绍了2022年清华大学的一场研讨课，详细探讨了自然语言处理(NLP)的各个方面，包括词性标注、命名实体识别、共体消减、依赖关系分析、自动分词等。课程还涵盖了NLP在搜索引擎、知识图谱、人工助手和翻译中的应用，以及词向量表示、语言模型（如N-gram和神经语言模型）的进步。此外，大模型如GPT-3的预训练机制和典型应用如问答、代码生成和图像生成被深入剖析。

摘要由CSDN通过智能技术生成

2022清华大学大模型交叉研讨课

2022-6-27

L1

1 NLP部分

NLP Tasks
- 词性标注
- 命名实体的识别（省略的现象）
- 共体消减（代词）
- 标注成分之间的依赖关系
- 中文的自动分词

运用：
- 搜索引擎中运用NLP
  - 匹配query和document的相似度，给定query后，可以给一些广告
  - 判断文档质量
- NLP结合knowledge graph
  - 充分抽取、利用知识
- 人工助手
- 翻译（解除语言屏障）
- 用语言作为一个视角，去分析社会
词表示：
- 转化成机器可以理解的词的意思
- similarity和relation
  - 弊端
    - 人工标注，缺失一些新的含义
    - 缺失细微的差别
    - 主观性
    - 数据吸收
    - 需要大量人工
one-hot
- 独立的，找一维和该词对应，其余维度为0
- 默认词和词之间都是正交的，导致任意两个词之间的相似度都是0
- 改进：词义和上下文有关
- 一个词用它上下文的常见词进行表示
- 弊端：
  - 增加了词的空间
  - 对于出现频率较少的词，上下文比较稀疏，导致效果不好
word embedding
- 建立低维的向量空间
- Word2Vec
Language Model
- 语言建模，根据前文进行预测
  - 联合概率：已有序列组成句子的概率
  - 条件概率：根据已有的句子预测下一个词
- 如何完成？
  - 假设：一个未来的词只受到之前的词的影响
  - 可以拆分，得到联合概率和条件概率的关系
N-gram Model
- E.g, 4-gram(n-gram只和该词的前n-1个词有关)
  $P\left(w_{j} \mid \text { never to late to }\right)=\frac{\operatorname{count}\left(\text { too late to } w_{j}\right)}{\operatorname{count}(\text { too late to })}$
  （never在此式子中并不纳入计算）
- 弊端：
  - 距离比较短
  - 仍然没有考虑到词之间的相似度
Neural Language Model
- 分布式的表示来建构
- 先把前3个词都表示成低维的向量，然后把低维的向量拼在一起，形成一个高一些的向量，然后就可以用这个向量来预测下一个词。
- 所有的预测都是通过对上下文的表示来进行的。
- 通过大模型去学习参数的设置

2 Bigmodel

2.1 简介

预训练语言模型的机理和细节。

Why PLM?
- 语言理解和语言生成的效果都很好
  - 不断增加参数
  - 增加计算
  - 增加算力
- 例子：GPT-3
  - rich knowledge
  - zero/few-shot（无标注，少样本）
Paradigms
- 从无标注的数据中进行学习，通过一些自监督的任务做预训练，从中得到丰富通用的知识。在具体运用的时候，再引入任务相关的知识，去调整模型。
- word embddings
- contextual word embddings
- ELMo,ULMFiT
- Transformer
Typical Case
- GPT
- Bert