数据挖掘task3：特征工程

最新推荐文章于 2021-08-25 21:00:36 发布

VIP文章 zky_cccharge

最新推荐文章于 2021-08-25 21:00:36 发布

阅读量176

点赞数

文章标签： python 机器学习大数据数据分析深度学习

本文链接：https://blog.csdn.net/zky_cccharge/article/details/105166610

版权

这里写目录标题

特征工程

特征工程

对于特征工程的描述有许多，这里捡笔者认为重要的说一个

特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能。

而特征工程的好坏优劣也往往成为各类比赛的关键点，其意义还是决定了它值得各位的重视。

而这篇文字主要介绍的是关于异常值，特征构造还有特征筛选的内容以及一些个人理解

异常值的删除

导入数据部分不再赘述，上一篇文章已经涉及，直接开始进行对异常值的把控。
而例子依然是选用的二手车交易情况的测试组和实验组

这里用到box_plot的清洗办法和箱线图的去除办法以下是代码部分

def outliers_proc(data, col_name, scale=3):
    """
    用于清洗异常值，默认用 box_plot（scale=3）进行清洗
    :param data: 接收 pandas 数据格式
    :param col_name: pandas 列名
    :param scale: 尺度
    :return:
    """

    def box_plot_outliers(data_ser, box_scale):
        """
        利用箱线图去除异常值
        :param data_ser: 接收 pandas.Series 数据格式
        :param box_scale: 箱线图尺度，
        :return:
        """
        iqr = box_scale * (data_ser.quantile(0.75) - data_ser.quantile(0.25))
        val_low = data_ser.quantile(0.25) - iqr
        val_up = data_ser.quantile(0.75) + iqr
        rule_low = (data_ser < val_low)
        rule_up = (data_ser > val_up)
        return (rule_low, rule_up), (val_low, val_up)

    data_n = data.copy()
    data_series = data_n[col_name]
    rule, value = box_plot_outliers(data_series, box_scale=scale)
    index = np.arange(data_series.shape[0])[rule[0] | rule[1]]
    print("Delete number is: {}".format(len(index)))
    data_n = data_n.drop(index)
    data_n.reset_index(drop=True, inplace=

最低0.47元/天解锁文章

zky_cccharge

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数据挖掘task3：特征工程

这里写目录标题特征工程异常值的删除特征构造特征筛选特征工程对于特征工程的描述有许多，这里捡笔者认为重要的说一个特征工程的主要目的还是在于将数据转换为能更好地表示潜在问题的特征，从而提高机器学习的性能。而特征工程的好坏优劣也往往成为各类比赛的关键点，其意义还是决定了它值得各位的重视。而这篇文字主要介绍的是关于异常值，特征构造还有特征筛选的内容以及一些个人理解异常值的删除导入数据部分...
复制链接

扫一扫