NLP自然语言处理

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/zyp361161/article/details/89428778

离散表示:one-hot

词典中每个单词都有唯一索引

one-hot表示:语料库中的每一个字表示成词典单词数目的向量

eg:

词典:{"Jone":1,"likes":2,"to":3,"watch":4,"movies":5}

One hot 表示:Jone likes to watch movies

一个词向量表示一个单词
Jone:[1,0,0,0,0]
likes:[0,1,0,0,0]

.......

代码实现:将语料库的词按词频排序,因为词典的词是有个数的,一般选取前多少建立词典,eg前5000个

 

 

词袋bag of words :文档的向量表示可直接将各词的向量和

文章用词袋表示

 

 

余弦相似度 

 

输入:5000维的 one-hot向量

Look-up 查询,将稀疏矩阵成变成稠密向量

输出:5000维的one-hot向量

缺点:没有考虑下文,没有顺序,softmax计算量太大。

 

CBOW:输入的是上下文,预测中心词

SKIP:输入的是 中心词,预测上下文

 

huffman tree:https://blog.csdn.net/qq_29519041/article/details/81428934

 

 

 

 

 

 

 

 

 

DNN=>RNN=>目标检测FAST RCNN=>TRANSFORMER

 

 

 

 LSTM非常慢 

 

BIRD

 

 

 

 

 

注意力机制三部曲:

score=》softmax=》加权求和

 

 

展开阅读全文

没有更多推荐了,返回首页