计算思维与数据科学①

1、数据采集

2、什么是数据预处理:将原始数据转换为可以理解的格式或便于我们处理的格式。

  1.     数据清洗:由脏数据到干净数据 
  2.     数据集成
  3.     数据变换 
  4.     数据归约

3、对原始数据进行审核:完整性、准确性、适用性、时效性

4、脏数据:数据会存在缺失值、重复值、不一致(矛盾、对立、不相容)、含噪声、维度高。

5、缺失属性处理:

  1、不处理,直接使用含有缺失值的特征;

  2、删除含有缺失值的特征;

  3、缺失值补全,平均值插补、同类平均值补全、极大似然估计、压缩感知、矩阵补全。

                  建模预测:利用机器学习算法对缺失值预测。

                  高维映射:映射至高维空间采用独热码编码。

                  多重插补:估计值加不同噪音,选取合适值。

6、独热码(One-Hot Encoding):对于某个特征,如果它有m个可能值,其独热码为一个m位二元特征,且独热码取值互斥,每次只有一个激活,呈现了稀疏性。

独热码解决了分类器不好处理离散属性数据的问题,在一定程度上也起到扩充特征的作用。

7、数据标准化:把数据的值按行(或列)

      a)统一映射到某个特定区间,如[-1,1]

      b)统一映射到某种分布,如标准正态分布

意义:(1)无量纲化,便于不同单位或量级的指标能够比较和加权。

           (2)避免数值过大导致内存溢出

           (3)减弱异常值在计算中的不良影响

           (4)加速梯度下降法(特征归一化)的收敛速度(椭圆VS圆)

离差标准化     ,适用于数据集中的情况

Z-Score标准化,适用于近似高斯分布的数据

log函数标准化,适用于数据分布较大,数据要≥1

L2范数归一化

Softmax变换,普通数值—》概率值

8、数据集的平衡化处理

(1)欠采样 RUS、NearMiss、ENN、Tomeklink

(2)过采样 SMOTE、ADASYN

(3)生成合成数据

(4)异常检测

9、代价敏感建模:假阳性假阴性的预测成本不同,因此给少数类样本分配较高的误分类代价,而给少数类样本分配较少的误分类代价。

  1.        调整样本权重(调整错误分类的损失)
  2.        调整决策阈值
  3.        修改现有算法以对稀缺类更敏感

缺点:需要领域先验知识,不能泛化到不同任务,依赖于特定分类器。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值