机器学习与数据挖掘——第二章数据与数据预处理

最新推荐文章于 2023-11-28 20:04:53 发布

butteringing

最新推荐文章于 2023-11-28 20:04:53 发布

阅读量413

点赞数

文章标签：数据挖掘机器学习

本文链接：https://blog.csdn.net/weixin_45668903/article/details/115433664

版权

一、关于数据

数据是数据对象的集合及其属性

数据对象集合及其属性

标称标度 nominal scale
标称属性的值是一些符号或实物的名称，每个值代表某种类别、编码或状态，所以标称属性又被看做是分类型的属性（categorical）。这些值不存在顺序关系，并且不是定量的。
如：血型、身份号码、邮政编码
类型标度 typological scale
序列标度 ordinal scale
在标称标度的基础上，加入了类别的顺序关系，当不能进行算术运算
如：成绩（优、良、及格）、印度种姓制度
间隔标度 interval scale
含有对各个类进行分隔的间隔规模信息，数字不仅表示顺序，还能进行加减算术运算，但不能进行乘除运算。
间隔标度可以看成一个一次函数。
如：日期、摄氏温度
比例标度 ratio scale
含有对各个类别进行分隔的比例规模信息
这种测量不仅保持了顺序、实体间的间隔规模，还能描述实体之间的比率，可以进行加减乘除等任何算术运算。
可以看成是一个比例函数。
如：开尔文温度、长度、时间
离散属性和连续属性
- 离散属性
  只有一个有限集和可数无限集，如邮政编码、计数。通常为整数变量。
- 连续属性
  实数作为属性值，如温度、高度。通常用浮点变量表示。

现实中的数据是脏的：

填充缺失值、识别/去除离散点、光滑噪音、纠正数据中的不一致

分箱：排序数据，分布到等频、等宽的箱中
聚类：检测和去除孤立点
局部离群因子LOF：LOF越接近于1，说明A的其领域点密度差不多，A可能和领域属于同一簇；如果这个比值约小于1，说明A的密度高于其领域点的密度，A为密集点；如果这个比值约大于1，说明A的密度小于其领域点，A越可能是异常点。
回归：回归函数拟合数据

合并多个数据源中的数据

获得数据的一个规约表示，规模比原来小、但接近原数据的完整性，使得得到几乎相同的分析结果。