数据分析02——数据清洗及特征处理

上烟雨心上尘

已于 2022-09-16 23:22:00 修改

阅读量1.5k

点赞数 2

分类专栏： Data analysis 文章标签：数据分析 python pandas

于 2022-08-18 21:38:26 首次发布

本文链接：https://blog.csdn.net/weixin_64632836/article/details/126414422

版权

Data analysis 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

数据分析02——数据清洗及特征处理

查看数据

.info()

打印 DataFrame 的简要摘要，显示有关 DataFrame的信息，包括索引的数据类型dtype和列的数据类型dtype，非空值的数量和内存使用情况。

df.info

.isnull()

df.isnull()来判断缺失值
df.isnull().sum()统计缺失值个数

显示所需列的数据信息

df[['Age','Cabin','Embarked']]

缺失值处理——dropna函数与fillna函数

.dropna()

.dropna(axis=0, how='any', thresh=None, subset=None, inplace=False)[source]

默认滤除所有包含NaN
传入how=‘all’滤除全为NaN的行，传入axis=1滤除列
传入thresh=n保留至少有n个非NaN数据的行

df[df['Age']==None]=0

df[df['Age'].isnull()] = 0

df[df['Age'] == np.nan] = 0

df.dropna()
# 把缺失值替换为0

.fillna()

DataFrame.fillna(value=None, method=None, axis=None, inplace=False, limit=None, downcast=None)

df.fillna(0)
# 把缺失值替换为0

参数

value ：用来填充缺失值的值

inplace参数的取值：True、False

True：直接修改原对象

False：创建一个副本，修改副本，原对象不变（缺省默认）

method参数的取值：
{‘backfill’, ‘bfill’, ‘pad’, ‘ffill’, None}, default None
method = ‘ffill’/‘pad’：用前一个非缺失值去填充该缺失值;
method = ‘bfill’/‘backfill’：用下一个非缺失值填充该缺失值;

axis参数的取值：
{0 or ‘index’, 1 or ‘columns’}
沿其填充缺失值的轴。

limit参数：限制填充个数

查看数据重复值

DataFrame.duplicated(subset=None, keep='first')

subset：

如果你认为几个字段重复，则数据重复，就把那几个字段以列表形式放到subset后面。默认是所有字段重复为重复数据。

keep:

默认为’first’ ,也就是如果有重复数据，则第一条出现的定义为False，后面的重复数据为True。
如果为’last’，也就是如果有重复数据，则最后一条出现的定义为False，后面的重复数据为True。
如果为False，则所有重复的为True

# 检测重复值
df.duplicated()

#查看重复值
df[df.duplicated()]

去重——drop_duplicates()

df.drop_duplicates(subset=['A','B','C'],keep='first',inplace=True)

参数说明如下：

subset：表示要进去重的列名，默认为 None。
keep：有三个可选参数，分别是 first、last、False，默认为 first，表示只保留第一次出现的重复项，删除其余重复项，last 表示只保留最后一次出现的重复项，False 则表示删除所有重复项。
inplace：布尔值参数，默认为 False 表示删除重复项后返回一个副本，若为 Ture 则表示直接在原数据上删除重复项。

分箱（离散化）处理

分箱操作：将连续数据转换为分类对应物的过程

pd.cut()

pandas.cut(x, bins, right=True, labels=None, retbins=False, precision=3, include_lowest=False, duplicates='raise', ordered=True)

x：分箱时输入的数组，必须为一位数组
bins：分类依据的标准，可以是int、标量序列或间隔索引(IntervalIndex)
right：是否包含bins区间的最右边，默认为True，最右边为闭区间，False则不包含
labels：要返回的标签，和bins的区间对应
retbins：是否返回bins,当bins作为标量时使用非常有用，默认为False
precision：精度，int类型
include_lowest：第一个区间是否为左包含(左边为闭区间)，默认为False,表示不包含，True则包含
duplicates：可选，默认为{default ‘raise’, ‘drop’}，如果 bin 边缘不是唯一的，则引发 ValueError 或删除非唯一的。
ordered：默认为True，表示标签是否有序。如果为 True，则将对生成的分类进行排序。如果为 False，则生成的分类将是无序的（必须提供标签）

例

连续变量Age平均分箱成5个年龄段，并分别用类别变量12345表示

df['AgeBand']=pd.cut(df['Age'],bins=5,labels=[1,2,3,4,5])

将连续变量Age划分为[0,5) [5,15) [15,30) [30,50) [50,80)五个年龄段，并分别用类别变量12345表示

df['AgeBand']=pd.cut(df['Age'],bins=[0,5,15,30,50,80],labels=[1,2,3,4,5])

pd.qcut()

pandas.qcut(x, q, labels=None, retbins=False, precision=3, duplicates='raise')

x ：一维数组或者Serise

q ：表示分位数的整数或者数组，

如果是分位数的整数，例如10用于十分位，4用于四分位
如果是分位数数组，例如[0,0.25,0.5,0.75,1]用于四分位数

labels ：数组或者布尔值，默认为none，用于指定每个箱体的标签

如果是数组，长度要与分箱个数一致，比如用四分位数分箱，需要指定四个标签
如果为False，则仅返回分箱的整数指示符，即当前数据位于哪个箱子中

rebines ：布尔值，可选。是否显示分箱的分界值。（由于是按照分位数进行分箱，在不知道分位数具体数值的情况下，可以通过这个参数设置显示分界值即分位数的具体数值）

precision：整数，默认3，存储和显示分箱标签的精度。

duplicates：如果分箱临界值不唯一，则引发ValueError或丢弃非唯一

将连续变量Age按10% 30% 50% 70% 90%五个年龄段，并用分类变量12345表示

df['AgeBand'] = pd.qcut(df['Age'],[0,0.1,0.3,0.5,0.7,0.9],labels = [1,2,3,4,5])

查看类别文本变量名及种类

value_counts

df['Sex'].value_counts()

unique

df['Sex'].unique()

转换文本变量

方法一: replace

df['Sex_num'] = df['Sex'].replace(['male','female'],[1,2]

方法二: map

df['Sex_num'] = df['Sex'].map({'male': 1, 'female': 2})
df.head()

方法三: 使用sklearn.preprocessing的LabelEncoder

from sklearn.preprocessing import LabelEncoder
for feat in ['Cabin', 'Ticket']:
    lbl = LabelEncoder()  
    label_dict = dict(zip(df[feat].unique(), range(df[feat].nunique())))
    df[feat + "_labelEncode"] = df[feat].map(label_dict)
    df[feat + "_labelEncode"] = lbl.fit_transform(df[feat].astype(str))

df.head()

特征提取

Series.str.extract（self，pat，flags = 0，expand = True ）

pat ： str

具有捕获组的正则表达式模式。

flags ： int，默认为0（无标志）

来自re模块的标志，例如re.IGNORECASE，修改正则表达式匹配，例如大小写，空格等。有关详细信息，请参阅re。

expand ： bool，默认为True

如果为True，则返回DataFrame，每个捕获组一列。如果为False，如果有一个捕获组，则返回系列/索引;如果有多个捕获组，则返回DataFrame。