特征工程系列：自动化特征构造

最新推荐文章于 2024-08-12 09:15:00 发布

木东居士

最新推荐文章于 2024-08-12 09:15:00 发布

阅读量1.2k

点赞数 4

本文链接：https://blog.csdn.net/zhaodedong/article/details/103451692

版权

本文介绍了特征工程的重要性及其在机器学习中的角色，特别是自动化特征构造。重点讲解了Feature Tools框架，包括实体、实体集、表的关联、特征基元、深度特征合成的概念。深度特征合成通过叠加多个基元构造新特征，如聚合和转换操作。最后，文中提到了特征构造、特征选择和自动构造特征在实际工作中的应用与挑战。

摘要由CSDN通过智能技术生成

0x00 前言

数据和特征决定了机器学习的上限，而模型和算法只是逼近这个上限而已。由此可见，特征工程在机器学习中占有相当重要的地位。在实际应用当中，可以说特征工程是机器学习成功的关键。

那特征工程是什么？

特征工程是利用数据领域的相关知识来创建能够使机器学习算法达到最佳性能的特征的过程。

特征工程又包含了 Data PreProcessing（数据预处理）、Feature Extraction（特征提取）、Feature Selection（特征选择）和 Feature construction（特征构造）等子问题，本章内容主要讨论特征构造的方法。

创造新的特征是一件十分困难的事情，需要丰富的专业知识和大量的时间。机器学习应用的本质基本上就是特征工程。
——Andrew Ng

0x01 自动化特征构造介绍

目前，很多机器学习项目的模型选择开始转向自动化，而特征工程仍然主要以人工为主。自动化特征工程旨在通过从数据集中自动创建候选特征，且从中选择若干最佳特征进行训练的一种方式。自动化特征工程工具包有 Feature Tools 和 tsfresh 等，以下以 Feature Tools 为例进行说明。

Feature Tools 是执行自动化功能工程的框架。它擅长将时态和关系数据集转换为机器学习的特征矩阵。

项目地址：https://docs.featuretools.com/
代码地址：https://github.com/WillKoehrsen/automated-feature-engineering/blob/master/walk_through/Automated_Feature_Engineering.ipynb

Feature Tools 使用一种称为深度特征合成（Deep Feature Synthesis，DFS）的算法，该算法遍历通过关系数据库的模式描述的关系路径，深度特征合成叠加多个转换和聚合操作，这在特征工具的词库中被称为特征基元，以便通过分布在多张表内的数据来构造新的特征。与机器学习中的大多数方法一样，这是建立在简单概念基础之上的复杂方法。

0x02实体和实体集

特征工具的前两个概念的是「实体」和「实体集」。一个实体就是一张表（或是 Pandas 中的一个 DataFrame（数据框））。一个实体集是一组表以及它们之间的关联。将一个实体集看成另一种 Python 数据结构，并带有自己的方法和属性。

0x03表的关联

考虑两张表之间「关联」的最好方法是类比父子之间的关联。这是一种一对多的关联：每个父亲可以有多个儿子。对表来说，每个父亲对应一张父表中的一行，但是子表中可能有多行对应于同一张父表中的多个儿子。

例如，在我们的数据集中，clients 数据框是 loans 数据框的一张父表。每个客户只对应 clients 表中的一行，但是可能对应 loans 表中的多行。同样，loans 表是 payments 表的一张父表，因为每项贷款可以有多项支付。父亲通过共享变量与儿子相关联。当我们执行聚合操作的时候，我们根据父变量对子表进行分组，并计算每个父亲的儿子的统计量。