特征工程
特征工程之文本表示模型、Word2Vec
五、文本表示模型
1、词袋模型和N-gram模型
词袋模型就是将整段文本以词为单位分隔开,忽略每个词出现的顺序,然后将每篇文章表示成为一个长向量,向量中的每一维代表一个单词,而该维对应的权重则反映了这个词在原文本中的重要程度。常用TF-IDF来计算权重,公式为
T F − I D F ( t , d ) = T F ( t , d ) × I D F ( t ) TF-IDF(t,d)=TF(t,d)×IDF(t) TF−IDF(t,d)=TF(t,d)×IDF(t)
其中 T F ( t , d ) TF(t,d) TF(t,d)为单词 t t t在文本 d d d中出现的频率, I D F ( t )