数据预处理概述和开发工具

恒星小白

于 2022-09-07 19:51:36 发布

阅读量2.4k

点赞数 1

分类专栏：数据预处理文章标签： python 数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_54230314/article/details/126752402

版权

数据预处理专栏收录该内容

4 篇文章

订阅专栏

目录

1、什么是数据预处理

2、常见的数据问题

3、数据预处理的流程

4、常用的数据预处理库

5、开发工具与环境

1.安装jupyter

2.使用jupyter

3.安装数据预处理库

1、什么是数据预处理

数据预处理是数据分析或数据挖掘前的准备工作，也是数据分析或数据挖掘中必不可缺少的一环，它主要通过一系列的方法来处理“脏”数据、精确地抽取数据、调整数据的格式，从而得到一组符合准确、完整、简洁等标准的高质量数据，保证该数据能更好地服务于数据分析工作或数据挖掘工作。

2、常见的数据问题

数据缺失(即有空值)
数据重复
数据异常
数据冗余(无意义或不需要的属性)
数据值冲突(不同的表或文件，同一属性值的单位不同)
数据噪声(多由硬件故障、编程错误、语言或光学字符识别程序识别错误等造成)

3、数据预处理的流程

数据获取(读取数据源)
数据清理(将“脏数据”变成“干净”数据，即删除重复值、处理缺失值、检测异常值，达到清除冗余数据、规范数据、纠正错误数据的目的)
数据集成(合并数据源)
数据变换(将数据转换成适当的形式，降低数据的复杂度)
数据规约(保持数据原貌的前提下，最大限度地精简数据，方法有降低维度、删除无关数据等)

4、常用的数据预处理库

1.numpy

2.Pandas

后续再详细介绍

5、开发工具与环境

1.安装jupyter

pip install jupyter notebook

2.使用jupyter

在cmd窗口切换到指定路径后输入“jupyter notebook”，浏览器会自动弹出jupyter窗口，没有弹出可在浏览器输入其路径

新建jupyter文件

新建成功

输入“hello world”按Shift+Enter运行本框的代码

3.安装数据预处理库

pip install 模块/库名

安装numpy和pandas

pip install numpy pandas

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

恒星小白 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。