文本向量化
文本向量化 : 把文本转化为计算机认识的形式的过程.
一, 向量化的粒度granularité分类:
1, 以字或单词为单位,中文就是单个字,英文可以是一个单词。
2, 以词为单位,就需要加入一个分词的过程。分词算法本身是一个NLP中重要的基础课题,本文不详细讲解。
3, 以句子为单位,提炼出把一句话的高层语义,简而言之就是寻找主题模型。当然如果我们已经拿到了一句话的所有词的向量,也可以简单的通过取平均活着其他方式来代表这个句子。
二, 以词为单位的文本向量化方法
SOW词集模型
BOW词袋模型
n-gram
TF-IDF
word2vec
三, 以句子为单位的主题模型方法
LSA
NMF
pLSA
LDA等
**01 BOW**
BOW
1, introduction
BOW 忽略文本的语法和语序等, 把一句话转化成一个词的集合, 文档中每个词的出现都是独立的. BOW模型不考虑句子中单词的顺序,