import pandas as pd
#字典转成DataFrame数据
df = pd.DataFrame({"key":["a","b"],"data":[1,2]})
# key value
#0 a 1
#1 b 2
#计算该属性中各类出现的频次
df['key'].value_counts()
#key
#a 1
#b 1
#也可以另一种调用方法
pd.value_counts(df['data'])
#data
#1 1
#2 1
计数函数
value_counts( values, sort=True, ascending=False, normalize=False, bins=None, dropna=True)
参数名 | 意义 |
sort | 是否排序,默认有序 |
ascending | 为True的时候升序,默认降序 |
normalize | 是否标准化数据 |
bins | 分段,将数据分为n区间 |
dropna | 是否删除缺省值,默认删除 |
PS:loc是通过"索引"找数据,可以限定index和column找到数据;
iloc通过位置找数据,可切片等操作。
参考:https://www.w3resource.com/pandas/dataframe/
清洗缺省数据的函数
DataFrame.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)
参数名 | 意义 |
axis | 默认值为0,表示删除包含缺失值的行;设置为1表示删除包含缺失值的列 |
how | 默认值为’any’,表示只要存在一个缺失值就删除整行或整列;设置为’all’表示只有当整行或整列都是缺失值时才删除 |
thresh | 表示在删除之前需要满足的非缺失值的最小数量。如果行或列中的非缺失值数量小于等于thresh,则会被删除 |
subset | 用于指定要检查缺失值的特定列名或行索引 |
inplace | 表示是否对原始数据进行就地修改 |
删除数据的函数
df.drop(labels = None, axis = 0, index = None, columns = None, level = None, inplace = False, errors = 'raise')
参数名 | 意义 |
labels | 要删除的列或者行,如果要删除多个,传入列表 |
axis | 默认值为0,表示删除包含缺失值的行;设置为1表示删除包含缺失值的列 |
index | 指定的一行或多行 |
columns | 指定的一列或多列 |
inplace | 表示是否对原始数据进行就地修改 |
替代数据的函数
map中的参数为字典类型
df['列名'] = df['列名'].map({'key1':'value1', 'key2':'value2',...})