pandas基础

weixin_44257163

于 2020-04-20 20:47:19 发布

阅读量107

点赞数

本文链接：https://blog.csdn.net/weixin_44257163/article/details/105643784

版权

一、数据读写

import pandas as pd
import numpy as np
#查看Pandas版本
pd.__version__

#数据读取

df = pd.read_csv('data/table.csv')
df.head()

df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt

#需要安装xlrd包
pip3 install xlrd
df_excel = pd.read_excel('data/table.xlsx')
df_excel.head()

#写入数据

df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引

#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')

二、基本数据结构
#创建序列（series）

s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')
s.values #查看序列的值 array([ 0.30582458,  0.85473774,  0.45608608,  0.5232085 , -3.567851])
s.name #查看序列名称 '这是一个Series'
s.index # Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
s.dtype #dtype('float64')
s['a'] #取出a索引下的值
s.mean() #求均值

print([attr for attr in dir(s) if not attr.startswith('_')])  #？？？？

#创建dataframe``


df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},index=list('一二三四五'))
df['col1']  
type(df)#查看数据类型  pandas.core.frame.DataFrame
type(df['col1'])# pandas.core.series.Series   
#单独取出数据框中的某一列，数据类型就变成了序列

# 修改行列名
df.rename(index={'一':'one'},columns={'col1':'new_col1'})
#调用属性和方法
df.index #查看行名 Index(['一', '二', '三', '四', '五'], dtype='object')
# df.columns
df.values #除去行列名后的值
df.shape
df.mean() #列平均