NLP常见任务:
1.自动摘要;
2.指代消解;
3.机器翻译;
4.词性标注;
5.分词;
6.主题识别;
7.文本分类;
离散表示
离散表示:ONE-HOT编码
语料库-词典-onehot表示
词典包含10个单词,每个单词有唯一索引;
在词典中的顺序和在句子中的顺序没有关联;
离散表示:bags or words
文档的向量表示可以直接将个词的词向量表示加和;
次权重:TF-IDF(没有考虑顺序)
l
o
g
(
1
+
N
/
n
)
log(1+N/n)
log(1+N/n)
N:文档总数
n:含有词的文档数
离散表示:n-gram语言模型
优点:考虑了词的顺序
缺点:词表的膨胀
离散的问题
无法衡量词向量之间的关系;
词表维度随着语料库增长膨胀;
n-gram词序列随语料库膨胀更快;
数据稀疏问题;
分布式表示
用一个词附近的其他词来表示该词(上下文猜测)
共现矩阵:word-word
将共现矩阵列(行)作为词向量
向量位数随着词典大小线性增长;
储存整个词典的空间小号非常长大;
一些模型如文本分类模型会面临稀疏性问题;
最直接的想法:用SVD对共现矩阵向量做降维处理
NNLM
直接从语言模型出发,将模型最优化过程转换为求词向量表示的过程