python数据分析与应用

最新推荐文章于 2024-06-22 10:30:53 发布

爱吃鸡的小鸡

最新推荐文章于 2024-06-22 10:30:53 发布

阅读量828

点赞数

文章标签： python 数据分析 pandas

本文链接：https://blog.csdn.net/weixin_59061079/article/details/127992418

版权

本文详细介绍了Python数据分析库pandas的使用，包括数据读写、数据结构、数据访问、数据修改、统计分析、时间类型数据处理、数据分组、透视表和交叉表创建、数据合并、缺失值和异常值处理、数据标准化和离散化。还讨论了sklearn库在机器学习中的应用，如数据划分、转换器和模型构建与评价。

摘要由CSDN通过智能技术生成

pandas是python中的一个对数据结构化进行数据分析处理的一个库

导包
import pandas as pd

pandas可以读取多种不同数据源的数据

# 读写文本,sep文本分割符号,header设置第几行是列名或None,index_col指定索引列,engine指定解释器,encoding指定编码
pd.read_csv(文件路径,sep='',header=,names=,index_col,engine='python',encoding='utf-8')
# 写出文本,sep分隔符,columns写出的列名,header输出列名,index输出索引列,encoding编码
pd.to_csv(文件路径,sep='',columns=[],header=True,index=True,encoding='utf-8')

# 读取excel文件,sheetname指定工作表字符串或数字,header指定列名行,index_col指定索引
pd.read_excel(文件路径,sheet_name=0,header=,names=,index_col)
# 写出excel文件,sheetname指定工作部名称,columns指定列名,header输出列名,index输出索引,encoding编码
pd.to_excel(文件路径,sheet_name='name',columns=[],header=True,index=True,encoding=)

pandas中有两种数据结构,一个是Series一个是DataFrame
在pandas中DataFrame的每一列数据就是一个Series

Series
pd.Series([1,2,'a'],index=['a','b','c']) # 1 2 a变成一列数据,索引是对应abc
pd.Series({'a':[1,2,3],'b':["4","5","6"]}) # a和b成索引,对应结果是数组a [1,2,3] b ["4","5","6"]

DataFrame
d = [[1,2,3,4],[5,6,7,8],[9,10,11,12]]
pd.DataFrame(d,index=[],columns=[]) # 结果是里面每一个[],index指定索引columns指定列名称

d = {'color':['blue','yellow',skyblue],
   'object':['ball','pen','pencil'],
   'price':[1.2,1.0,1,1]
   }
pd.DataFrame(d) # 通过字典来构建dataframe,key会成为列名,value成为列的值

数据框的常用属性 df为dataframe数据源
df.values # 返回每一列所有元素类型
df.index # 返回索引
df.shape # 返回元组包含几行几列
df.dtypes # 返回所有数据类型
df.size # 返回元素个数
df.co