数据预处理
文章平均质量分 93
许久是混子
我是混子我是混子我是混子。。。。。。
展开
-
6. 常见降维算法原理与Python实现
降维是对事物的特征进行压缩和筛选,该项任务相对比较抽象。如果没有特定领域知识,无法预先决定采用哪些数据,比如在人脸识别任务中,如果直接使用图像的原始像素信息,数据的维度会非常高,通常会利用降维技术对图像进行处理,保留下最具有区分度的像素组合。原创 2021-12-13 16:40:40 · 2558 阅读 · 0 评论 -
5. 特征选择(附Python的简单实现)
特征的质量决定模型的上限原创 2021-12-09 20:15:12 · 7312 阅读 · 5 评论 -
4. 类别不均衡问题
类别数据不均衡是分类任务中存在的经典问题,一般在数据清洗环节进行处理。不均衡简单来说,在数据集中,一类样本的数据量明显远大于其他样本类别数据量。原创 2021-12-08 16:25:06 · 567 阅读 · 0 评论 -
3. 特征处理概述
Garbage in, garbage out.原创 2021-12-07 19:47:36 · 1498 阅读 · 0 评论 -
2. 特征缩放(归一化)
为了消除数据特征之间的量纲影响,我们需要对特征进行`归一化处理`,使得不同指标之间具有可比性。例如,分析一个人的身高和体重对健康的影响,如果使用 米(m) 和 千克(kg) 作为单位,那么分析出来的结果显然会倾向于数值差别比较大的体重特征,想要得到更为准确的结果,就需要进行 `特征归一化` 处理,使得各指标处于同一数值量级,以便进行分析。同时,`特征归一化`可提高模型精度和模型收敛速度,是预处理的重要环节之一,特征归一化又叫`特征缩放`。原创 2021-12-07 15:57:39 · 1009 阅读 · 1 评论 -
1. 数据清洗概述
现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。为了提高数据挖掘的质量产生了数据预处理技术。数据预处理有多种方法:数据清理,数据集成,数据变换,数据归约等。这些数据处理技术在数据挖掘之前使用,大大提高了数据挖掘模式的质量,降低实际挖掘所需要的时间。原创 2021-12-07 14:25:33 · 4675 阅读 · 0 评论