Python数据分析详解（适合新手的详细教程）

码农必胜客

已于 2024-01-06 10:49:11 修改

阅读量1.7w

点赞数 14

分类专栏： Python零基础入门文章标签： python 数据分析开发语言

于 2023-11-08 11:28:31 首次发布

本文链接：https://blog.csdn.net/xiaolinyui/article/details/134284460

版权

前言

这篇文章主要介绍了Python中的数据分析详解,对数据进行分析。数据分析是指根据分析目的，用适当的统计分析方法及工具，对收集来的数据进行处理与分析，提取有价值的信息，发挥数据的作用。

数据分析概述

python在数据分析方面有哪些优势

Python不受数据规模的约束，能够处理大规模数据。
Python的sklearn库提供了丰富的数据挖掘和人工智能方法，为使用者分析各种场景提供方法支持。
Python的自动数据分析能够显著提升工作效率。
Python能够绘制各种前沿的数据图表。
Python在海量数据采集方面也有独特的优势。

数据分析的流程是什么？

数据采集
数据整理和存储
数据分析和可视化
数据报表和总结

数据的导入和导出

导入数据

Excel格式

#excel有xls，xlsx两种格式，都可以使用read_excel
#read_excel方法返回的结果是DataFrame，DataFrame的一列对应着Excel的一列。
import pandas as pd
data = pd.read_excel(path)
"""
参数含义：
（1）sheet_name参数：该参数用于指定导入Excel文件中的哪一个sheet，如果不填写这个参数，则默认导入第一个sheet。
（2） index_col参数：该参数用于指定表格的哪一列作为DataFrame的行索引，从0开始计数。
（3）nrows参数：该参数可以控制导入的行数，该参数在导入文件体积较大时比较有用。
（4）skipfooter参数：该参数可以在导入数据时，跳过表格底部的若干行。
（5）header参数：当使用Pandas的read_excel方法导入Excel文件时，默认表格的第一行为字段名。如果表格的第一段不是字段名，则需要使用该参数设置字段名。
（6）usecols参数：该参数可以控制导入Excel表格中的哪些列。
（7）names参数：该参数可以对导入数据的列名进行重命名。 
"""

csv格式

#CSV是一种用分隔符分割的文件格式。由于Excel文件在存放巨量数据时会占用极大空间，且导入时也存在占用极大内存的缺点，因此，巨量数据常采用CSV格式。
import pandas as pd
data = pd.read_csv(path,encoding="utf-8")
#sep参数表示要导入的csv文件的分隔符，默认值是半角逗号
data = pd.read_csv(path,sep=',',encoding="utf-8")

json格式

#用Pandas模块的read_json方法导入JSON数据，其中的参数为JSON文件的路径。 
import pandas as pd
data  = pd.read_json(path)

txt格式

#需要导入存在于txt文件中的数据时，可以使用pandas模块中的read_table方法。它的参数和用法与read_csv方法类似。
import pandas as pd
data = pd.read_table(path)

导出数据

CSV格式数据输出

import pandas as pd
data = pd.read_csv(path,sep=",",encoding="utf-8",nrows=10)
data.to_csv("test.csv",nrows=10)
"""
1、CSV格式数据输出
对于pandas库的to_csv方法，有下列参数说明：
path_or_buf：要保存的路径及文件名。
sep：分割符，默认为“，”。
columns：指定要输出的列，用列名，列表表示，默认值为None。
header：是否输出列名，默认值为True。
index：是否输出索引，默认值为True。
encoding：编码方式，默认值为“utf-8”。
"""

xlsx格式数据输出

import pandas as pd
data = pd.read_excel(path)
data.to_excel(path,encoding='gbk')
"""
sheet_name：字符串，默认值为“Sheet1”,指包含DataFrame数据的表的名称。
np_rep：字符串，默认值为 ‘ '。指缺失数据的表示方式
columes：序列，可选参数，要编辑的列
header：布尔型或字符串列表，默认值为True。如果给定字符串列表，则表示它是列名称的别名。
index：布尔型，默认值为True，行名（索引）
index_label：字符串或序列，默认值为None。如果文件数据使用多索引，则需使用序列。
encoding：指定Excel文件的编码方式，默认值为None。
"""
data2 = pd.read_excel(path)
work = pd.ExcelWriter('path')
data.to_excel(work,sheet_name='data')
data2.to_excel(work,sheet_name="data2")

数据预处理

熟悉数据

import pandas as pd
data = pd.read_csv(path)
#使用info()方法查看数据基本类型
data.info()
#查看数据表的大小
d = data.shape[0]
w = data.shape[1]
#数据格式的查看
type(data)
#series的查看
data.dtype
#dataframe的查看
data