七。词向量与相关应用

NLP常见任务:
1.自动摘要;
2.指代消解;
3.机器翻译;
4.词性标注;
5.分词;
6.主题识别;
7.文本分类;

离散表示

离散表示:ONE-HOT编码

语料库-词典-onehot表示
词典包含10个单词,每个单词有唯一索引;
在词典中的顺序和在句子中的顺序没有关联;

离散表示:bags or words

文档的向量表示可以直接将个词的词向量表示加和;
次权重:TF-IDF(没有考虑顺序)
l o g ( 1 + N / n ) log(1+N/n) log(1+N/n)
N:文档总数
n:含有词的文档数

离散表示:n-gram语言模型

优点:考虑了词的顺序
缺点:词表的膨胀

离散的问题

无法衡量词向量之间的关系;
词表维度随着语料库增长膨胀;
n-gram词序列随语料库膨胀更快;
数据稀疏问题;

分布式表示

用一个词附近的其他词来表示该词(上下文猜测)

共现矩阵:word-word

将共现矩阵列(行)作为词向量
向量位数随着词典大小线性增长;
储存整个词典的空间小号非常长大;
一些模型如文本分类模型会面临稀疏性问题;

最直接的想法:用SVD对共现矩阵向量做降维处理

NNLM

直接从语言模型出发,将模型最优化过程转换为求词向量表示的过程

word2vec:CBOW(连续词袋)

word1Vec:Skip-Gram模型

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值