数据挖掘-数据预处理

最新推荐文章于 2024-07-23 14:36:35 发布

open happy鸭

最新推荐文章于 2024-07-23 14:36:35 发布

阅读量123

点赞数

文章标签： python 机器学习数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_46563170/article/details/118758514

版权

数据预处理

数据清洗：格式内容、逻辑错误（数据重复、矛盾内容）、异常值、`

删除异常值
造成缺失值
缺失值清洗

缺失值处理方法
- 删除元组
- 数据填充
  - 使用统计量（平均值、中位数、众数）填充

数据归一化：数据和特征决定结果的上限

结构化数据（线性函数归一化、零均值归一化、Box-Cox变换）

类别型特征归一化：

类别型需转为数值型才能正常工作
- 序号编码
- 独热编码
- 二进制编码（相比独热编码节省的存储空间）
非结构化数据：

文本：

常营文本向量化表示模型：词袋模型、TF—IDF、主题模型、词嵌入模型
- 词袋模型
- TF统计词频，IDF（t）是逆文档频率，用来衡量单词t对表达语义所起的重要性IDF（t）=1+log(ND/ND(T)) ND为总文档数，ND（t）为包含t的总文档数（N-gram统计N个连续词的词频）

主题模型：

潜在语义分析
- 构建词文档
- 对单词文档矩阵进行奇异值分解

词嵌入与神经网络模型：

词嵌入方法：word2Vec、Glove

Filer过滤类方法：person相关系数、卡方检验、信息增益比、Gini指数、互信息、最大信息系数

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘-数据预处理

数据预处理数据清洗：格式内容、逻辑错误（数据重复、矛盾内容）、异常值、`删除异常值造成缺失值缺失值清洗缺失值处理方法删除元组数据填充使用统计量（平均值、中位数、众数）填充数据归一化：数据和特征决定结果的上限结构化数据（线性函数归一化、零均值归一化、Box-Cox变换）类别型特征归一化：类别型需转为数值型才能正常工作序号编码独热编码二进制编码（相比独热编码节省的存储空间）非结构化数据：文本：常营文本向量化表示模型：词袋模型、TF—I
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。