pandas是python中的一个对数据结构化进行数据分析处理的一个库
导包
import pandas as pd
pandas可以读取多种不同数据源的数据
# 读写文本,sep文本分割符号,header设置第几行是列名或None,index_col指定索引列,engine指定解释器,encoding指定编码
pd.read_csv(文件路径,sep='',header=,names=,index_col,engine='python',encoding='utf-8')
# 写出文本,sep分隔符,columns写出的列名,header输出列名,index输出索引列,encoding编码
pd.to_csv(文件路径,sep='',columns=[],header=True,index=True,encoding='utf-8')
# 读取excel文件,sheetname指定工作表字符串或数字,header指定列名行,index_col指定索引
pd.read_excel(文件路径,sheet_name=0,header=,names=,index_col)
# 写出excel文件,sheetname指定工作部名称,columns指定列名,header输出列名,index输出索引,encoding编码
pd.to_excel(文件路径,sheet_name='name',columns=[],header=True,index=True,encoding=)
pandas中有两种数据结构,一个是Series一个是DataFrame
在pandas中DataFrame的每一列数据就是一个Series
Series
pd.Series([1,2,'a'],index=['a','b','c']) # 1 2 a变成一列数据,索引是对应abc
pd.Series({'a':[1,2,3],'b':["4","5","6"]}) # a和b成索引,对应结果是数组a [1,2,3] b ["4","5","6"]
DataFrame
d = [[1,2,3,4],[5,6,7,8],[9,10,11,12]]
pd.DataFrame(d,index=[],columns=[]) # 结果是里面每一个[],index指定索引columns指定列名称
d = {'color':['blue','yellow',skyblue],
'object':['ball','pen','pencil'],
'price':[1.2,1.0,1,1]
}
pd.DataFrame(d) # 通过字典来构建dataframe,key会成为列名,value成为列的值
数据框的常用属性 df为dataframe数据源
df.values # 返回每一列所有元素类型
df.index # 返回索引
df.shape # 返回元组包含几行几列
df.dtypes # 返回所有数据类型
df.size # 返回元素个数
df.co