pandas常用的函数

weixin_44115638

已于 2024-01-24 16:11:17 修改

阅读量610

点赞数 8

文章标签： pandas

于 2024-01-24 14:27:40 首次发布

本文链接：https://blog.csdn.net/weixin_44115638/article/details/134570252

版权

import pandas as pd

#字典转成DataFrame数据
df = pd.DataFrame({"key":["a","b"],"data":[1,2]})
#	key	value
#0	a	1
#1	b	2

#计算该属性中各类出现的频次
df['key'].value_counts()
#key
#a    1
#b    1

#也可以另一种调用方法
pd.value_counts(df['data'])
#data
#1    1
#2    1

计数函数

value_counts( values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)

参数名	意义
sort	是否排序，默认有序
ascending	为True的时候升序，默认降序
normalize	是否标准化数据
bins	分段，将数据分为n区间
dropna	是否删除缺省值，默认删除

PS：loc是通过"索引"找数据，可以限定index和column找到数据；

iloc通过位置找数据，可切片等操作。

参考：https://www.w3resource.com/pandas/dataframe/

清洗缺省数据的函数

DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)

参数名	意义
axis	默认值为0，表示删除包含缺失值的行；设置为1表示删除包含缺失值的列
how	默认值为’any’，表示只要存在一个缺失值就删除整行或整列；设置为’all’表示只有当整行或整列都是缺失值时才删除
thresh	表示在删除之前需要满足的非缺失值的最小数量。如果行或列中的非缺失值数量小于等于thresh，则会被删除
subset	用于指定要检查缺失值的特定列名或行索引
inplace	表示是否对原始数据进行就地修改

删除数据的函数

df.drop(labels = None, axis = 0, index = None, columns = None, level = None, inplace = False, errors = 'raise')

参数名	意义
labels	要删除的列或者行，如果要删除多个，传入列表
axis	默认值为0，表示删除包含缺失值的行；设置为1表示删除包含缺失值的列
index	指定的一行或多行
columns	指定的一列或多列
inplace	表示是否对原始数据进行就地修改

替代数据的函数

map中的参数为字典类型
df['列名'] = df['列名'].map({'key1':'value1', 'key2':'value2',...})