数据预处理
数据清洗:格式内容、逻辑错误(数据重复、矛盾内容)、异常值、`
-
删除异常值
-
造成缺失值
-
缺失值清洗
缺失值处理方法
- 删除元组
- 数据填充
- 使用统计量(平均值、中位数、众数)填充
数据归一化:数据和特征决定结果的上限
-
结构化数据(线性函数归一化、零均值归一化、Box-Cox变换)
类别型特征归一化:
类别型需转为数值型才能正常工作
- 序号编码
- 独热编码
- 二进制编码(相比独热编码节省的存储空间)
-
非结构化数据:
文本:
常营文本向量化表示模型:词袋模型、TF—IDF、主题模型、词嵌入模型
- 词袋模型
- TF统计词频,IDF(t)是逆文档频率,用来衡量单词t对表达语义所起的重要性
IDF(t)=1+log(ND/ND(T))
ND为总文档数,ND(t)为包含t的总文档数(N-gram统计N个连续词的词频)
主题模型:
- 潜在语义分析
- 构建词文档
- 对单词文档矩阵进行奇异值分解
词嵌入与神经网络模型:
词嵌入方法:word2Vec、Glove
Filer过滤类方法:person相关系数、卡方检验、信息增益比、Gini指数、互信息、最大信息系数