一、数据读写
import pandas as pd
import numpy as np
#查看Pandas版本
pd.__version__
#数据读取
df = pd.read_csv('data/table.csv')
df.head()
df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt
#需要安装xlrd包
pip3 install xlrd
df_excel = pd.read_excel('data/table.xlsx')
df_excel.head()
#写入数据
df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引
#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')
二、基本数据结构
#创建序列(series)
s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')
s.values #查看序列的值 array([ 0.30582458, 0.85473774, 0.45608608, 0.5232085 , -3.567851])
s.name #查看序列名称 '这是一个Series'
s.index # Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
s.dtype #dtype('float64')
s['a'] #取出a索引下的值
s.mean() #求均值
print([attr for attr in dir(s) if not attr.startswith('_')]) #????
#创建dataframe``
df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},index=list('一二三四五'))
df['col1']
type(df)#查看数据类型 pandas.core.frame.DataFrame
type(df['col1'])# pandas.core.series.Series
#单独取出数据框中的某一列,数据类型就变成了序列
# 修改行列名
df.rename(index={'一':'one'},columns={'col1':'new_col1'})
#调用属性和方法
df.index #查看行名 Index(['一', '二', '三', '四', '五'], dtype='object')
# df.columns
df.values #除去行列名后的值
df.shape
df.mean() #列平均