李宏毅04_nlp

最新推荐文章于 2024-08-14 20:51:06 发布

weixin_45806011

最新推荐文章于 2024-08-14 20:51:06 发布

阅读量33

点赞数

分类专栏：李宏毅机器学习笔记文章标签：自然语言处理人工智能

本文链接：https://blog.csdn.net/weixin_45806011/article/details/133779597

版权

4 篇文章 0 订阅

订阅专栏

前言

根据输出不同nlp可以分为三类：
1. 每个vector生成一个label ：每一个节点有什么样的特性
2. 整个sequence生成一个label ：将留言分类为好或不好
3. seq2seq：语言翻译

如何结合上下文
- 将每个vector输入到self-attention网络中，该网络会结合上下文生成一个vector。新的vector是考虑是上下文之后的情况，再将其输入到FCN中得到label。
- self-attention可多次使用，与FCN交替使用。
如何计算几个vector之间的相关性

（1）用soft-max将所有向量进行归一化，标准化。
- 点积：若两个向量的点积为0，则说明两向量垂直，没有相关性。若点积为1，方向同向，说明它们完全相关。
（2）根据vector之间关系的强弱，抽取重要资讯。
（3）如何求参数b
- 利用内积得到attention的分数
- Wq：参数的集合，weight
（4）总结
- I：input输入，self-attention的输入是一串vector
- 对A进行处理（softmax，relu等）得到Amax
- O：self-attention这个layer的输出

加上一个位置向量ei
在这里插入图片描述

将image分为pixel，每个pixel是以RGB为维度的三维向量。
self-attention VS CNN
- self-attention比较的是每个像素点和图片其他像素点之间的关联性
- CNN规定了一个感受野，它只考虑感受野以内的点的关联性。
- self-attention是一个大的CNN，CNN是self-attention的局部版
- CNN适合数据量小的情况；self-attention适合数据量大的情况

定义：是一个sequence To sequence的model
结构：由一个Encoder和一个Decoder组成。输入一个sequence，由encoder进行处理，将处理好的结果给decoder，decoder决定它要输出什么样的sequence。