机器学习与数据挖掘——第二章 数据与数据预处理

一、关于数据

什么是数据?

数据是数据对象的集合及其属性

数据对象集合及其属性

属性的类型

  • 标称标度 nominal scale
    标称属性的值是一些符号或实物的名称,每个值代表某种类别、编码或状态,所以标称属性又被看做是分类型的属性(categorical)。这些值不存在顺序关系,并且不是定量的。
    如:血型、身份号码、邮政编码
  • 类型标度 typological scale
  • 序列标度 ordinal scale
    在标称标度的基础上,加入了类别的顺序关系,当不能进行算术运算
    如:成绩(优、良、及格)、印度种姓制度
  • 间隔标度 interval scale
    含有对各个类进行分隔的间隔规模信息,数字不仅表示顺序,还能进行加减算术运算,但不能进行乘除运算。
    间隔标度可以看成一个一次函数。
    如:日期、摄氏温度
  • 比例标度 ratio scale
    含有对各个类别进行分隔的比例规模信息
    这种测量不仅保持了顺序、实体间的间隔规模,还能描述实体之间的比率,可以进行加减乘除等任何算术运算。
    可以看成是一个比例函数。
    如:开尔文温度、长度、时间
  • 离散属性和连续属性
    • 离散属性
      只有一个有限集和可数无限集,如邮政编码、计数。通常为整数变量。
    • 连续属性
      实数作为属性值,如温度、高度。通常用浮点变量表示。

二、为什么要预处理数据

现实中的数据是脏的:

  • 不完全:缺少属性值,或仅包含聚类数据
  • 噪音:包含错误和孤立点
  • 不一致:编码或名字存在差异
  • 数据类型
  • 非平衡数据

三、数据清理

填充缺失值、识别/去除离散点、光滑噪音、纠正数据中的不一致

如何处理缺失数据?

  1. 忽略元组
  2. 手工填写缺失数据
  3. 自动填充:全局常量(如“unknown”)、属性均值、推理的方式

如何处理噪音数据

  1. 分箱:排序数据,分布到等频、等宽的箱中
  2. 聚类:检测和去除孤立点
    局部离群因子LOF:LOF越接近于1,说明A的其领域点密度差不多,A可能和领域属于同一簇;如果这个比值约小于1,说明A的密度高于其领域点的密度,A为密集点;如果这个比值约大于1,说明A的密度小于其领域点,A越可能是异常点。
  3. 回归:回归函数拟合数据

四、数据集成

合并多个数据源中的数据

五、数据规约

获得数据的一个规约表示,规模比原来小、但接近原数据的完整性,使得得到几乎相同的分析结果。

  • 数据立方体聚集
  • 维度规约——去除不重要的属性
    主成分分析PCA:将一组N维向量降为K维,其目标是选择K给单位正交基,使原始数据变换到这组基后,各字段两两协方差为0,而字段的方程则尽可能大。
    步骤:
    1. 设有m条n维数据,按列组成n行m列矩阵X
    2. 将X的每一行进行零均值化,即减去这一行的均值
    3. 求出协方差矩阵C=X(X^T)/m
    4. 求出协方差矩阵的特征值及对应特征向量
    5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P
    6. Y=PX即为降维后的向量
  • 数据压缩
  • 数值规约
  • 离散化和产生概念分层
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值