文章目录
一、Pandas基本使用
在数据分析中,Pandas的使用频率很高,可以说是基于 NumPy 构建的含有更高级数据结构和分析能力的工具包。
Series和 DataFrame是两个核心数据结构分别代表着一维的序列和二维的表结构,基于这两种数据结构,Pandas可以对数据进行导入、清洗、处理、统计和输出。
Pandas中的统计函数
count() 统计个数,空值NaN不计算
describe() 一次性输出多个统计指标,包括:count, mean, std, min, max等
min()最小值
max()最大值
sum()总和
mean()平均值
median()中位数
var()方差
std()标准差
argmin() 统计最小值的索引位置
argmax()统计最大值的索引位置
idxmin() 统计最小值的索引值
idxmax() 统计最大值的索引值
describe()
读取csv文件
pd.read_csv('car_complain.csv')
写csv文件
pd.to_csv('car_complain.csv', index=False)
index=False,表明不保存index
merge通过索引合并两个Dataframe
df2 = df.merge(df2, left_index=True, right_index=True, how