先引包
from pandas import Series,DataFrame
import pandas as pd
- 读取CSV文件
df=pd.read_csv(文件名,header=0,encoding='gbk')
data=DataFrame(df)
- 查看索引
data.index
- 查看列
data.columns
- 查看前几个或后几个
data.head(5)
data.tail(5)
- 查看重复值
data.duplicated()
返回结果为Bool类型,即如果前面出现过,则再次出现时返回true,否则返回false。
- 删除重复值
data=data.drop_duplicates()
- 统计某一列空值个数
data['列名'].isnull().value_counts()
- 正则匹配
pattern=r'2016-02-29.+'
data[data['time'].str.contains(pattern)]['time'].head(5)
示例中返回的是time那一列满足pattern的前五个