数据预处理概述和开发工具

目录

1、什么是数据预处理

2、常见的数据问题

3、数据预处理的流程

4、常用的数据预处理库

5、开发工具与环境

1.安装jupyter

2.使用jupyter

3.安装数据预处理库


1、什么是数据预处理

数据预处理是数据分析或数据挖掘前的准备工作,也是数据分析或数据挖掘中必不可缺少的一环,它主要通过一系列的方法来处理“脏”数据、精确地抽取数据、调整数据的格式,从而得到一组符合准确、完整、简洁等标准的高质量数据,保证该数据能更好地服务于数据分析工作或数据挖掘工作。

2、常见的数据问题

  1. 数据缺失(即有空值)

  2. 数据重复

  3. 数据异常

  4. 数据冗余(无意义或不需要的属性)

  5. 数据值冲突(不同的表或文件,同一属性值的单位不同)

  6. 数据噪声(多由硬件故障、编程错误、语言或光学字符识别程序识别错误等造成)

3、数据预处理的流程

  1. 数据获取(读取数据源)

  2. 数据清理(将“脏数据”变成“干净”数据,即删除重复值、处理缺失值、检测异常值,达到清除冗余数据、规范数据、纠正错误数据的目的)

     

  3. 数据集成(合并数据源)

     

  4. 数据变换(将数据转换成适当的形式,降低数据的复杂度)

     

  5. 数据规约(保持数据原貌的前提下,最大限度地精简数据,方法有降低维度、删除无关数据等)

     

4、常用的数据预处理库

1.numpy

2.Pandas

后续再详细介绍

5、开发工具与环境

1.安装jupyter

pip install jupyter notebook

2.使用jupyter

在cmd窗口切换到指定路径后输入“jupyter notebook”,浏览器会自动弹出jupyter窗口,没有弹出可在浏览器输入其路径

 

新建jupyter文件

 

新建成功

 

输入“hello world”按Shift+Enter运行本框的代码

 

3.安装数据预处理库

pip install 模块/库名

安装numpy和pandas

pip install numpy pandas 

  • 1
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

恒星小白

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值