数据分析02——数据清洗及特征处理
查看数据
.info()
打印 DataFrame 的简要摘要,显示有关 DataFrame的信息,包括索引的数据类型dtype和列的数据类型dtype,非空值的数量和内存使用情况。
df.info
.isnull()
df.isnull()
来判断缺失值df.isnull().sum()
统计缺失值个数
显示所需列的数据信息
df[['Age','Cabin','Embarked']]
缺失值处理——dropna函数与fillna函数
.dropna()
.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)[source]
- 默认滤除所有包含NaN
- 传入how=‘all’滤除全为NaN的行,传入axis=1滤除列
- 传入thresh=n保留至少有n个非NaN数据的行
df[df['Age']==None]=0
df[df['Age'].isnull()] = 0
df[df['Age'] == np.nan] = 0
df.dropna()
# 把缺失值替换为0
.fillna()
DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)
df.fillna(0)
# 把缺失值替换为0
参数
value
:用来填充缺失值的值
inplace
参数的取值:True、FalseTrue:直接修改原对象
False:创建一个副本,修改副本,原对象不变(缺省默认)
method
参数的取值:
{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
method = ‘ffill’/‘pad’:用前一个非缺失值去填充该缺失值;
method = ‘bfill’/‘backfill’:用下一个非缺失值填充该缺失值;
axis
参数的取值:
{0 or ‘index’, 1 or ‘columns’}
沿其填充缺失值的轴。
limit
参数:限制填充个数
查看数据重复值
DataFrame.duplicated(subset=None, keep='first')
subset:
- 如果你认为几个字段重复,则数据重复,就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。
keep:
- 默认为’first’ ,也就是如果有重复数据,则第一条出现的定义为False,后面的重复数据为True。
- 如果为’last’,也就是如果有重复数据,则最后一条出现的定义为False,后面的重复数据为True。
- 如果为False,则所有重复的为True
# 检测重复值
df.duplicated()
#查看重复值
df[df.duplicated()]
去重——drop_duplicates()
df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)
参数说明如下:
- subset:表示要进去重的列名,默认为 None。
- keep:有三个可选参数,分别是 first、last、False,默认为 first,表示只保留第一次出现的重复项,删除其余重复项,last 表示只保留最后一次出现的重复项,False 则表示删除所有重复项。
- inplace:布尔值参数,默认为 False 表示删除重复项后返回一个副本,若为 Ture 则表示直接在原数据上删除重复项。
分箱(离散化)处理
分箱操作:将连续数据转换为分类对应物的过程
pd.cut()
pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)
x:分箱时输入的数组,必须为一位数组
bins:分类依据的标准,可以是int、标量序列或间隔索引(IntervalIndex)
right:是否包含bins区间的最右边,默认为True,最右边为闭区间,False则不包含
labels:要返回的标签,和bins的区间对应
retbins:是否返回bins,当bins作为标量时使用非常有用,默认为False
precision:精度,int类型
include_lowest:第一个区间是否为左包含(左边为闭区间),默认为False,表示不包含,True则包含
duplicates:可选,默认为{default ‘raise’, ‘drop’},如果 bin 边缘不是唯一的,则引发 ValueError 或删除非唯一的。
ordered:默认为True,表示标签是否有序。如果为 True,则将对生成的分类进行排序。如果为 False,则生成的分类将是无序的(必须提供标签)
例
- 连续变量Age平均分箱成5个年龄段,并分别用类别变量12345表示
df['AgeBand']=pd.cut(df['Age'],bins=5,labels=[1,2,3,4,5])
- 将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段,并分别用类别变量12345表示
df['AgeBand']=pd.cut(df['Age'],bins=[0,5,15,30,50,80],labels=[1,2,3,4,5])
pd.qcut()
pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')
x :一维数组或者Serise
q : 表示分位数的整数或者数组,
- 如果是分位数的整数,例如10用于十分位,4用于四分位
- 如果是分位数数组,例如[0,0.25,0.5,0.75,1]用于四分位数
labels : 数组或者布尔值,默认为none,用于指定每个箱体的标签
- 如果是数组,长度要与分箱个数一致,比如用四分位数分箱,需要指定四个标签
- 如果为False,则仅返回分箱的整数指示符,即当前数据位于哪个箱子中
rebines :布尔值,可选。 是否显示分箱的分界值。(由于是按照分位数进行分箱,在不知道分位数具体数值的情况下,可以通过这个参数设置显示分界值即分位数的具体数值)
precision:整数,默认3,存储和显示分箱标签的精度。
duplicates:如果分箱临界值不唯一,则引发ValueError或丢弃非唯一
- 将连续变量Age按10% 30% 50% 70% 90%五个年龄段,并用分类变量12345表示
df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])
查看类别文本变量名及种类
- value_counts
df['Sex'].value_counts()
- unique
df['Sex'].unique()
转换文本变量
- 方法一: replace
df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2]
- 方法二: map
df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()
- 方法三: 使用sklearn.preprocessing的LabelEncoder
from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
lbl = LabelEncoder()
label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
df[feat + "_labelEncode"] = df[feat].map(label_dict)
df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))
df.head()
特征提取
Series.str.extract(self,pat,flags = 0,expand = True )
pat : str
具有捕获组的正则表达式模式。
flags : int,默认为0(无标志)
来自re模块的标志,例如re.IGNORECASE,修改正则表达式匹配,例如大小写,空格等。有关详细信息,请参阅re。
expand : bool,默认为True
如果为True,则返回DataFrame,每个捕获组一列。如果为False,如果有一个捕获组,则返回系列/索引;如果有多个捕获组,则返回DataFrame。