pandas基础

一、数据读写

import pandas as pd
import numpy as np
#查看Pandas版本
pd.__version__ 

#数据读取

df = pd.read_csv('data/table.csv')
df.head()

df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数
df_txt

#需要安装xlrd包
pip3 install xlrd
df_excel = pd.read_excel('data/table.xlsx')
df_excel.head()

#写入数据

df.to_csv('data/new_table.csv')
#df.to_csv('data/new_table.csv', index=False) #保存时除去行索引

#需要安装openpyxl
df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')

二、基本数据结构
#创建序列(series)

s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')
s.values #查看序列的值 array([ 0.30582458,  0.85473774,  0.45608608,  0.5232085 , -3.567851])
s.name #查看序列名称 '这是一个Series'
s.index # Index(['a', 'b', 'c', 'd', 'e'], dtype='object')
s.dtype #dtype('float64')
s['a'] #取出a索引下的值
s.mean() #求均值

print([attr for attr in dir(s) if not attr.startswith('_')])  #????

#创建dataframe``


df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},index=list('一二三四五'))
df['col1']  
type(df)#查看数据类型  pandas.core.frame.DataFrame
type(df['col1'])# pandas.core.series.Series   
#单独取出数据框中的某一列,数据类型就变成了序列

# 修改行列名
df.rename(index={'一':'one'},columns={'col1':'new_col1'})
#调用属性和方法
df.index #查看行名 Index(['一', '二', '三', '四', '五'], dtype='object')
# df.columns
df.values #除去行列名后的值
df.shape
df.mean() #列平均
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值