Python数据分析模块:Numpy,Pandas,Matplotlib

本文详细介绍了Python数据分析的基本流程,包括数据收集、预处理、清洗等步骤,重点讲解了如何处理缺失值、异常值和重复值。在数据清洗部分,提到了使用Numpy、Pandas和Matplotlib等库进行数据探索,如通过describe方法、3σ原则和箱线图检测异常值,并提供了相应的处理策略,如填充、删除和转换等。
摘要由CSDN通过智能技术生成

1、数据分析流程

1.1、基本流程

1、明确需求与目的
2、数据收集
(1)内部数据
(2)购买数据
(3)爬取数据
(4)调查问卷
(5)其他收集
3、数据预处理
(1)数据整合:横向整合、纵向整合
(2)数据清洗:缺失值、异常值、重复值
(3)数据转换
4、数据分析
(1)描述分析
(2)推断分析
(3)数据建模:特征工程、超参数调整
(4)数据可视化
5、编写报告

2、读取数据

2.1、导入相关的库

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import warnings

sns.set(style="darkgrid")
plt.rcParams["font.family"]="SimHei"
plt.rcParams["axes.unicode_minus"]=False
warnings.filterwarnings("ignore")

2.2、数据集加载

data = pd.read_csv("data.csv")
print(data.shape)
data.sample() #数据加载之后,可以用head/tail/sample等方法查看数据的大致情况

3、数据清洗

3.1、缺失值

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值