Pandas使用经验小结

本文总结了使用Pandas处理CSV文件的一些实用技巧,包括读取文件、查看索引和列信息、检查及删除重复值、统计空值以及运用正则表达式进行数据筛选。通过这些方法,可以高效地管理和清洗数据。
摘要由CSDN通过智能技术生成

先引包

from pandas import Series,DataFrame
import pandas as pd
  • 读取CSV文件
df=pd.read_csv(文件名,header=0,encoding='gbk')
data=DataFrame(df)
  • 查看索引
data.index
  • 查看列
data.columns
  • 查看前几个或后几个
data.head(5)
data.tail(5)
  • 查看重复值
data.duplicated()

返回结果为Bool类型,即如果前面出现过,则再次出现时返回true,否则返回false。

  • 删除重复值
data=data.drop_duplicates()
  • 统计某一列空值个数
data['列名'].isnull().value_counts()
  • 正则匹配
pattern=r'2016-02-29.+'
data[data['time'].str.contains(pattern)]['time'].head(5)

示例中返回的是time那一列满足pattern的前五个

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值