Pandas基础

最新推荐文章于 2022-08-24 10:45:37 发布

wjsjjss

最新推荐文章于 2022-08-24 10:45:37 发布

阅读量146

点赞数

分类专栏： python 文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/wjsjjss/article/details/105646286

版权

python 专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1. 读取

（a）csv格式

df = pd.read_csv('data/table.csv')

（b）txt格式

df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数

（c）xls或xlsx格式

df_excel = pd.read_excel('data/table.xlsx')

2. 写入

df.to_csv('data/new_table.csv')

df.to_excel('data/new_table2.xlsx', sheet_name='Sheet1')

基本数据结构

1. Series

（a）创建一个Series

s = pd.Series(np.random.randn(5),index=['a','b','c','d','e'],name='这是一个Series',dtype='float64')

对于一个Series，其中最常用的属性为值（values），索引（index），名字（name），类型（dtype）

（b）访问Series属性

s.values

s.name

（c）取出某一个元素

s['a']

（d）调用方法

s.mean()

attr for attr in dir(s) if not attr.startswith('_')

2. DataFrame

（a）创建一个DataFrame

df = pd.DataFrame({'col1':list('abcde'),'col2':range(5,10),'col3':[1.3,2.5,3.6,4.6,5.8]},
index=list('一二三四五'))

（b）从DataFrame取出一列为Series

df['col1']

（c）修改行或列名

df.rename(index={'一':'one'},columns={'col1':'new_col1'})

（d）调用属性和方法

df.index columns values shape mean() #本质上是一种Aggregation操作，将在第3章详细介绍

（e）索引对齐特性

这是Pandas中非常强大的特性，不理解这一特性有时就会造成一些麻烦

（f）列的删除与添加

对于删除而言，可以使用drop函数或del或pop

df.drop(index='五',columns='col1') #设置inplace=True后会直接在原DataFrame中改动

pop方法直接在原来的DataFrame上操作，且返回被删除的列，与python中的pop函数类似

df['col1']=[1,2,3,4,5]
df.pop('col1')

可以直接增加新的列，也可以使用assign方法

df1['B']=list('abc')
df1

df1.assign(C=pd.Series(list('def')))

但assign方法不会对原DataFrame做修改

（g）根据类型选择列

df.select_dtypes(include=['number']).head()

（h）将Series转换为DataFrame

s = df.mean()
s.name='to_DataFrame'

三、常用基本函数

1. head和tail

df = pd.read_csv('data/table.csv')

df.head()

df.tail()

2. unique和nunique

nunique显示有多少个唯一值

df['Physics'].nunique()

unique显示所有的唯一值

df['Physics'].unique()

3. count和value_counts

count返回非缺失值元素个数

df['Physics'].count()

value_counts返回每个元素有多少个

df['Physics'].value_counts()

4. describe和info

info函数返回有哪些列、有多少非缺失值、每列的类型

df.info()

describe默认统计数值型数据的各个统计量

df.describe()

可以自行选择分位数

df.describe(percentiles=[.05, .25, .75, .95])

对于非数值型也可以用describe函数

df['Physics'].describe()

5. idxmax和nlargest

idxmax函数返回最大值，在某些情况下特别适用，idxmin功能类似

df['Math'].idxmax()

nlargest函数返回前几个大的元素值，nsmallest功能类似

df['Math'].nlargest(3)

6. clip和replace

clip和replace是两类替换函数

clip是对超过或者低于某些值的数进行截断

df['Math'].clip(33,80)

replace是对某些值进行替换

df['Address'].replace(['street_1','street_2'],['one','two'])

通过字典，可以直接在表中修改

df.replace({'Address':{'street_1':'one','street_2':'two'}})

7. apply函数

apply是一个自由度很高的函数

对于Series，它可以迭代每一列的值操作：

df['Math'].apply(lambda x:str(x)+'!').head() #可以使用lambda表达式，也可以使用函数

对于DataFrame，它可以迭代每一个列操作：

df.apply(lambda x:x.apply(lambda x:str(x)+'!')).head() #这是一个稍显复杂的例子，有利于理解apply的功能

四、排序

1. 索引排序

df.set_index('Math').head() #set_index函数可以设置索引，将在下一章详细介绍

df.set_index('Math').sort_index().head() #可以设置ascending参数，默认为升序，True

2. 值排序

df.sort_values(by='Class')

多个值排序，即先对第一层排，在第一层相同的情况下对第二层排序

df.sort_values(by=['Address','Height'])

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Pandas基础

1. 读取（a）csv格式df = pd.read_csv('data/table.csv')（b）txt格式df_txt = pd.read_table('data/table.txt') #可设置sep分隔符参数（c）xls或xlsx格式df_excel = pd.read_excel('data/table.xlsx')2. 写入df.to_csv...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。