pandas基础

获取DataFrame所有列名

import pandas
dataFrame=pandas.read_excel(sourceFilePath)
keys=list(dataFrame.keys())

列切片

dataFrame=dataFrame[key]

行切片

curDataFrame=dataFrame[(dataFrame['时间']>=beginTime)&(dataFrame['时间']<endTime)]

排序

resultDataFrame.sort_values('时间', inplace=True)
resultDataFrame.sort_index(by='时间') args:ascending(default True),axis(default 0),by(default None)

批量赋值

dateFrame.loc[dateFrame[dateFrame['原始功率(kw)'] < 0].index, '原始功率(kw)'] = 0

批量值替换

dateFrame.loc[dateFrame[dateFrame['原始功率(kw)'] < 0].index, '原始功率(kw)'] = 
dateFrame.loc[dateFrame[dateFrame['原始功率(kw)'] < 0].index, '预测功率(kw)']
空值处理
dataFrame.fillna('nan',inplace=True)
dataFrame.dropna(how='any',inplace=True)

应用函数

stripstr = lambda x: x.strip() if isinstance(x, unicode) else x
dataFrame=dataFrame.applymap(stripstr)

只在列上应用

dataFrame['姓名'] = dataFrame['姓名'].apply(stripstr)

统计方法

DataFrame.mean(axis=0,skipna=True)

count非 NA 值的数量
describe针对 Series 或 DF 的列计算汇总统计
min , max最小值和最大值
argmin , argmax最小值和最大值的索引位置(整数)
idxmin , idxmax最小值和最大值的索引值
quantile样本分位数(0 到 1)
sum求和
mean均值
median中位数
mad根据均值计算平均绝对离差
var方差
std标准差
skew样本值的偏度(三阶矩)
kurt样本值的峰度(四阶矩)
cumsum样本值的累计和
cummin , cummax样本值的累计最大值和累计最小值
cumprod样本值的累计积
diff计算一阶差分(对时间序列很有用)
pct_change计算百分数变化



评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值