目录
1、什么是数据预处理
数据预处理是数据分析或数据挖掘前的准备工作,也是数据分析或数据挖掘中必不可缺少的一环,它主要通过一系列的方法来处理“脏”数据、精确地抽取数据、调整数据的格式,从而得到一组符合准确、完整、简洁等标准的高质量数据,保证该数据能更好地服务于数据分析工作或数据挖掘工作。
2、常见的数据问题
-
数据缺失(即有空值)
-
数据重复
-
数据异常
-
数据冗余(无意义或不需要的属性)
-
数据值冲突(不同的表或文件,同一属性值的单位不同)
-
数据噪声(多由硬件故障、编程错误、语言或光学字符识别程序识别错误等造成)
3、数据预处理的流程
-
数据获取(读取数据源)
-
数据清理(将“脏数据”变成“干净”数据,即删除重复值、处理缺失值、检测异常值,达到清除冗余数据、规范数据、纠正错误数据的目的)
-
数据集成(合并数据源)
-
数据变换(将数据转换成适当的形式,降低数据的复杂度)
-
数据规约(保持数据原貌的前提下,最大限度地精简数据,方法有降低维度、删除无关数据等)
4、常用的数据预处理库
1.numpy
2.Pandas
后续再详细介绍
5、开发工具与环境
1.安装jupyter
pip install jupyter notebook
2.使用jupyter
在cmd窗口切换到指定路径后输入“jupyter notebook”,浏览器会自动弹出jupyter窗口,没有弹出可在浏览器输入其路径
新建jupyter文件
新建成功
输入“hello world”按Shift+Enter运行本框的代码
3.安装数据预处理库
pip install 模块/库名
安装numpy和pandas
pip install numpy pandas