FeatureTools
文章平均质量分 97
FeatureTools
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
案例系列:预测哥斯达黎加家庭的贫困情况_FeatureTools
这是比赛中使用的F1 Macro得分。为LightGBM定义一个自定义评估指标并不是非常直接,但我们可以应对。# 将预测结果进行重塑# 计算宏平均F1分数# 返回指标名称、指标值、是否越大越好的标志为了扩展featuretools的功能,我们可以编写自己的原语来应用于数据。我们将编写一个简单的函数,用于查找数值列的范围。# 导入所需的库# 自定义聚合函数# 创建自定义的聚合原语我们还可以创建一个自定义原语,用于计算两列之间的相关系数。# 定义一个函数,用于计算两个数值列的相关系数。原创 2024-01-21 12:38:49 · 1009 阅读 · 0 评论 -
案例系列:预测房屋的销售价格_使用EvalML预测房价_FeatureTools
在进行实际的机器学习之前,EvalML提供了另一个我们可以探索的功能。虽然我们将依赖后面要使用的自动化机器学习来提供生成的管道,但我们可以预先指定管道结构和超参数范围,以便AutoML搜索。在这个相当高级的实现中,我们将指定我们将包含在中的估计器的超参数范围,并创建一组我们想要将它们包含在其中的管道。在我们指定了这些之后,我们可以向我们的流水线中添加一些内容。我们将希望对名义分类特征进行独热编码,并使用随机森林回归器选择最佳特征。原创 2024-01-21 12:23:25 · 904 阅读 · 0 评论 -
案例系列:客户流失预测_构建建模_FeatureTools
机器学习流程的最后一步也是价值所在。在我们开发了带有各自截止时间的标签之后,我们需要训练一个模型,将特征映射到预测标签。在这个笔记本中,我们将使用特征矩阵和标签时间来训练和测试一个机器学习模型。我们将解决一个单一的预测问题,即在每个月的第一天预测哪些客户在该月内会流失,其中流失被定义为超过31天没有活跃会员资格,提前一个月的前导时间和一个月的预测窗口。原创 2024-01-21 10:26:34 · 1086 阅读 · 0 评论 -
案例系列:客户流失预测_使用Spark进行特征工程_FeatureTools
问题:在“特征工程”中,我们开发了一个自动化特征工程的流水线,使用客户交易和标签时间的数据集。在单个客户分区上运行此流水线需要大约15分钟,这意味着如果一个一个地完成所有功能,则需要几天时间。解决方案:将数据集分成独立的客户分区,并并行运行多个子集。这可以使用单个机器上的多个处理器或机器集群来完成。以下是我们为此数据集编写的自定义基元(请参见“特征工程”笔记本)。它计算上个月某种数量的总量。"""返回`time`之前一个月的`numeric`列的总和。"""# 处理一月份# 过滤数据并计算总和。原创 2024-01-21 10:22:37 · 1135 阅读 · 0 评论 -
案例系列:客户流失预测_使用Featuretools进行自动特征工程_FeatureTools
我们有一组截止时间和标签 - 在标签时间表中 - 我们需要为每个标签构建相关特征,仅使用截止时间之前的数据。传统上,我们会手动完成这个过程,这是一个费时且容易出错的过程,使得开发可用的机器学习解决方案非常困难。使用Featuretools实现的自动特征工程,从可重用的框架中构建数百或数千个相关特征,从关系数据集中自动过滤数据基于截止时间。这种方法克服了手动特征工程的局限性,让我们在短时间内构建更好的预测模型。特征工程的一般过程如下所示:目前,使用多个相关表进行自动特征工程的唯一选择是。原创 2024-01-21 10:15:14 · 1099 阅读 · 0 评论 -
案例系列:客户流失预测_预测特征工程:标记历史示例_FeatureTools
在这个笔记本中,我们将开发一种方法来为客户流失预测问题中的客户交易数据进行标记。标记的目的是根据业务需求创建一组我们想要预测的历史示例:在这个问题中,我们的目标是预测客户流失,所以我们想要从数据中创建过去流失的标记示例。这个笔记本的最终结果是一个包含每个标签及其关联截止时间的标签时间表。这些带有截止时间的标签以后可以在Featuretools中用于自动特征工程。这些特征将被用于训练预测模型来预测客户流失,这是订阅业务模型的常见需求,也是机器学习非常适合的问题。原创 2024-01-19 22:57:22 · 888 阅读 · 0 评论 -
案例系列:客户流失预测_大型数据集分成分区_FeatuesTools
问题:我们有一个大型数据集,我们想要将其分成较小的部分,以便并行运行特征工程流水线。方法:通过将客户ID哈希为整数,然后取模(整数)除以分区数,将数据分成分区。确定每个客户ID的分区后,我们可以遍历数据并将分区写入正确的目录。在流程结束时,我们将拥有个客户数据,每个分区包含一部分客户的所有数据。# 导入所需的库import pandas as pd # 导入pandas库用于数据处理import hashlib # 导入hashlib库用于生成哈希值。原创 2024-01-19 22:46:29 · 769 阅读 · 0 评论