一、高维组合特征的处理
组合特征:为提高复杂关系的拟合能力,在特征工程中经常会把一阶离散特征两两组合,构成高阶组合特征
二、组合特征
三、文本表示模型
词袋模型(Bag of Words)
词袋模型是最基础的文本表示模型,即将每片文章看成一袋子词,并忽略每个词出现的顺序,常用TF-IDF来计算权重,公式为:
TF-IDF(t,d)=TF(t,d) x IDF(t)
其中:TF(t,d)为单词t在文档d中出现的频率,IDF(t)是逆文档频率
IDF(t)=log(文章总数/包含单词t的文章总数+1)