特征工程
对于特征工程的描述有许多,这里捡笔者认为重要的说一个
特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征,从而提高机器学习的性能。
而特征工程的好坏优劣也往往成为各类比赛的关键点,其意义还是决定了它值得各位的重视。
而这篇文字主要介绍的是关于异常值,特征构造还有特征筛选的内容以及一些个人理解
异常值的删除
导入数据部分不再赘述,上一篇文章已经涉及,直接开始进行对异常值的把控。
而例子依然是选用的二手车交易情况的测试组和实验组
这里用到box_plot的清洗办法和箱线图的去除办法以下是代码部分
def outliers_proc(data, col_name, scale=3):
"""
用于清洗异常值,默认用 box_plot(scale=3)进行清洗
:param data: 接收 pandas 数据格式
:param col_name: pandas 列名
:param scale: 尺度
:return:
"""
def box_plot_outliers(data_ser, box_scale):
"""
利用箱线图去除异常值
:param data_ser: 接收 pandas.Series 数据格式
:param box_scale: 箱线图尺度,
:return:
"""
iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
val_low = data_ser.quantile(0.25) - iqr
val_up = data_ser.quantile(0.75) + iqr
rule_low = (data_ser < val_low)
rule_up = (data_ser > val_up)
return (rule_low, rule_up), (val_low, val_up)
data_n = data.copy()
data_series = data_n[col_name]
rule, value = box_plot_outliers(data_series, box_scale=scale)
index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
print("Delete number is: {}".format(len(index)))
data_n = data_n.drop(index)
data_n.reset_index(drop=True, inplace=