数据挖掘的小白之旅taks3

最新推荐文章于 2021-04-17 18:13:07 发布

小白的崛起之路

最新推荐文章于 2021-04-17 18:13:07 发布

阅读量166

点赞数

分类专栏：大数据

本文链接：https://blog.csdn.net/weixin_46606791/article/details/105148300

版权

大数据专栏收录该内容

2 篇文章 0 订阅

订阅专栏

特征工程

异常处理
- 通过箱线图（或 3-Sigma）分析删除异常值；
- BOX-COX 转换（处理有偏分布）；
- 长尾截断；
代码部分
（前面主要是利用四分位数的方法处理，然后用箱型图展示处理后的图像）
`def outliers_proc(data, col_name, scale=3):
“”"
用于清洗异常值，默认用 box_plot（scale=3）进行清洗
:param data: 接收 pandas 数据格式
:param col_name: pandas 列名
:param scale: 尺度
:return:
“”"

def box_plot_outliers(data_ser, box_scale):
“”"
利用箱线图去除异常值
:param data_ser: 接收 pandas.Series 数据格式
:param box_scale: 箱线图尺度，
:return:
“”"
iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
val_low = data_ser.quantile(0.25) - iqr
val_up = data_ser.quantile(0.75) + iqr
rule_low = (data_ser < val_low)
rule_up = (data_ser > val_up)
return (rule_low, rule_up), (val_low, val_up)

data_n = data.copy()
data_series = data_n[col_name]
rule, value = box_plot_outliers(data_series, box_scale=scale)
index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
print(“Delete number is: {}”.format(len(index)))
data_n = data_n.drop(index)
data_n.reset_index(drop=True, inplace=True)
print(“Now column number is: {}”.format(data_n.shape[0]))
index_low = np.arange(data_series.shape[0])[rule[0]]
outliers = data_series.iloc[index_low]
print(“Description of data less than the lower bound is:”)
print(pd.Series(outliers).describe())
index_up = np.arange(data_series.shape[0])[rule[1]]
outliers = data_series.iloc[index_up]
print(“Description of data larger than the upper bound is:”)
print(pd.Series(outliers).describe())

fig, ax = plt.subplots(1, 2, figsize=(10, 7))
sns.boxplot(y=data[col_name], data=data, palette=“Set1”, ax=ax[0])
sns.boxplot(y=data_n[col_name], data=data_n, palette=“Set1”, ax=ax[1])
return data_n`
代码中有很多函数都是要百度，在有时间的时候要仔细研究
- 运行结果
特征构造
特征归一化/标准化：
- 标准化（转换为标准正态分布）；
- 归一化（抓换到 [0,1] 区间）；
- 针对幂律分布；
- （代码就是提取一些使用时间，城市信息，品牌销售量，都是一些可以通过原有数据转换过来的数据）
数据分桶的作用:
好处：
- 方便抽样
- 提高join查询效率
  - 获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。
  - 使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。
后面的特征筛选没看懂，正在加油干呢。

小白的崛起之路

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘的小白之旅taks3

特征工程异常处理通过箱线图（或 3-Sigma）分析删除异常值；BOX-COX 转换（处理有偏分布）；长尾截断；代码部分（前面主要是利用四分位数的方法处理，然后用箱型图展示处理后的图像）`def outliers_proc(data, col_name, scale=3):“”"用于清洗异常值，默认用 box_plot（scale=3）进行清洗:param data...
复制链接

扫一扫