pandas数据处理操作

本文介绍了如何使用pandas库在Python中读取和写入Excel文件,包括单个sheet、多个sheet以及数据预处理,如处理缺失值、删除空值和重复行。同时,文章涵盖了数据排序、时间处理和统计函数的应用。
摘要由CSDN通过智能技术生成

1、使用pandas将excel文件导入导出

import pandas as pd
#导入数据
#第一种方式,就一页
#openpyxl安装这个库,不用xlrd  pip install openpyxl
dl=pd.read_excel(r'C:\Users\lenovo\Desktop\data.xlsx',engine='openpyxl') #将数据表导入python
#df = pd.read_excel("http://www.website.com/data.xlsx") 如果是远程文件路径用这个
#第二种方式:指定导入Excel文件的某个Sheet页
df = pd.read_excel("文件路径", sheet_name="Sheet1",header=None, skiprows=1, usecols="A:B") #其中的header=None表示不使用表头,skiprows=1表示跳过第一行,usecols="A:C"表示只导入A列到B列的数据,可根据实际需要进行调整。
#第三种:导入Excel文件中的多个Sheet页
dfs = pd.read_excel("文件路径", sheet_name=["Sheet1","Sheet2"])

#导出数据
df.to_excel("C:/Users/Administrator/Desktop/new_data.xlsx", index=False)# index=False代表不保存索引信息

2、数据预处理

处理缺失值

df.fillna(0, inplace=True)          #将 DataFrame 中所有缺失值替换为 0

删除空值

df.dropnull()          

删除重复行

df.drop_duplicates(inplace=True)	#删除重复的行

3、常用方法

检测缺失值

isnull() 	#检测缺失值
notnull 	#检测非缺失值

时间处理

pd.to_datetime(str)        将str数据转换为datetime格式
pd.date_range(start_time, end_time, frep=‘M’)            1.参数frep指定时间的间隔依据,M表示按月划分。2.类似于python中的range(),不包括end_time。
pd.to_datetime(str) - MonthEnd(1)			获取到上个月的月份

排序

pd.sort_index()			按行排序或按列排序
pd.sort_values()		按值排序

统计函数

pd.sum()
pd.mean()
pd.median() #中位数
pd.std() #标准差
pd.max()
pd.min()
pd.abs()
pd.prod() #数组元素乘积
pd.cumprod() #累计乘积
pd.cumsum() #累计总和
pd.pct_change() #将每个元素与前一个元素进行比较,并计算变化百分比。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值