机器学习(二)
1.1 机器学习的流程
1.2 UCI数据集
- 常用的机器学习标准测试数据集:
UCI:http://archive.ics.uci.edu/ml/index.php
1.3 数据预处理
- 数据预处理流程
1.3.1 数据清理
初始数据可能存在以下问题:
- 数据含噪声。这类数据(尤其是孤立点和异常数据)不能随随便便轻易的删除,可能孤立点的数据正是我们要找的异常数据。
- 数据错误。可以根据数据情况对错误数据进行更改、删除或者直接丢弃这类数据。
- 缺失数据。可根据数据情况进行数据的补缺,常用线性插值法或者回归的方法。
- 数据冗余。找出具有最大影响属性因子的属性数据,其余属性可以删除。