计算思维与数据科学①

最新推荐文章于 2024-08-04 16:25:59 发布

田园将芜胡不归

最新推荐文章于 2024-08-04 16:25:59 发布

阅读量884

点赞数

文章标签：机器学习数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_47280837/article/details/117740919

版权

1、数据采集

2、什么是数据预处理：将原始数据转换为可以理解的格式或便于我们处理的格式。

数据清洗：由脏数据到干净数据
数据集成
数据变换
数据归约

3、对原始数据进行审核：完整性、准确性、适用性、时效性

4、脏数据：数据会存在缺失值、重复值、不一致（矛盾、对立、不相容）、含噪声、维度高。

5、缺失属性处理：

1、不处理，直接使用含有缺失值的特征；

2、删除含有缺失值的特征；

3、缺失值补全，平均值插补、同类平均值补全、极大似然估计、压缩感知、矩阵补全。

建模预测：利用机器学习算法对缺失值预测。

高维映射：映射至高维空间采用独热码编码。

多重插补：估计值加不同噪音，选取合适值。

6、独热码（One-Hot Encoding）：对于某个特征，如果它有m个可能值，其独热码为一个m位二元特征，且独热码取值互斥，每次只有一个激活，呈现了稀疏性。

独热码解决了分类器不好处理离散属性数据的问题，在一定程度上也起到扩充特征的作用。

7、数据标准化：把数据的值按行（或列）

a）统一映射到某个特定区间，如[-1,1]

b）统一映射到某种分布，如标准正态分布

意义：（1）无量纲化，便于不同单位或量级的指标能够比较和加权。

（2）避免数值过大导致内存溢出

（3）减弱异常值在计算中的不良影响

（4）加速梯度下降法（特征归一化）的收敛速度（椭圆VS圆）

离差标准化，适用于数据集中的情况

Z-Score标准化，适用于近似高斯分布的数据

log函数标准化，适用于数据分布较大，数据要≥1

L2范数归一化，

Softmax变换，普通数值—》概率值

8、数据集的平衡化处理

（1）欠采样 RUS、NearMiss、ENN、Tomeklink

（2）过采样 SMOTE、ADASYN

（3）生成合成数据

（4）异常检测

9、代价敏感建模：假阳性假阴性的预测成本不同，因此给少数类样本分配较高的误分类代价，而给少数类样本分配较少的误分类代价。

调整样本权重（调整错误分类的损失）
调整决策阈值
修改现有算法以对稀缺类更敏感

缺点：需要领域先验知识，不能泛化到不同任务，依赖于特定分类器。

田园将芜胡不归

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
计算思维与数据科学①

1、数据采集2、什么是数据预处理：将原始数据转换为可以理解的格式或便于我们处理的格式。数据清洗：由脏数据到干净数据数据集成数据变换数据归约3、对原始数据进行审核：完整性、准确性、适用性、时效性4、脏数据：数据会存在缺失值、重复值、不一致（矛盾、对立、不相容）、含噪声、维度高。5、缺失属性处理： 1、不处理，直接使用含有缺失值的特征； 2、删除含有缺失值的特征； 3、缺失值补全，平均值插补、同类平均值补全、极大似然估计、压...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。