![](https://img-blog.csdnimg.cn/20190918140158853.png?x-oss-process=image/resize,m_fixed,h_224,w_224)
Tensorflow决策森林
文章平均质量分 95
Tensorflow决策森林
数智笔记
目前从事数据挖掘工作,期望在自己学习总结的同时,也能分享有益的东西给别人,希望有志者能在数据挖掘领域共同进步
展开
-
工具系列:TensorFlow决策森林_(2)排序学习Learning to Rank
排序模型的目标是正确排序项目。例如,排序可以用于在用户查询后选择最佳的文档进行检索。表示排序数据集的一种常见方式是使用“相关性”分数:元素的顺序由它们的相关性定义:相关性较高的项目应该在相关性较低的项目之前。错误的代价由预测项目的相关性与正确项目的相关性之间的差异定义。例如,将相关性分别为3和4的两个项目错位不如将相关性分别为1和5的两个项目错位。TF-DF希望以“平面”格式呈现排序数据集。查询文档ID特征1特征2相关性猫10.1蓝色4猫20.5绿色1猫3。原创 2023-12-25 00:28:42 · 1671 阅读 · 0 评论 -
工具系列:TensorFlow决策森林_(3)使用dtreeviz可视化
之前的教程演示了如何使用TensorFlow的决策森林(随机森林、梯度提升树和CART)分类器和回归器来准备数据、训练和评估。(我们将TensorFlow决策森林缩写为TF-DF。)您还学会了如何使用内置的函数可视化树,并显示特征重要性度量。本教程的目标是通过可视化更深入地解释分类器和回归器决策树。我们将查看详细的树结构图示,以及决策树如何划分特征空间以做出决策的描绘。树结构图帮助我们理解模型的行为,特征空间图帮助我们通过展示特征和目标变量之间的关系来理解数据。我们将使用的可视化库称为dtreeviz。原创 2023-12-25 00:30:09 · 1440 阅读 · 0 评论 -
工具系列:TensorFlow决策森林_(5)使用文本和神经网络特征
由于TF-DF下的每个学习算法可以以不同的方式使用验证数据,TF-DF在内部处理训练/验证拆分。这个例子将使用一个预训练的TF-Hub嵌入将文本特征转换为密集嵌入,并在其上训练一个随机森林模型。前面的例子使用了一个预训练的神经网络(NN)来处理文本特征,然后将它们传递给随机森林。不同的预训练嵌入可能适用于不同类型的文本(例如不同的语言、不同的任务),也适用于其他类型的结构化特征(例如图像)。模块训练一个使用文本特征的随机森林。因此,现在神经网络已经训练好了,决策森林模型将适应于神经网络层的训练输出。原创 2023-12-25 00:35:58 · 1221 阅读 · 3 评论 -
工具系列:TensorFlow决策森林_(8)组合决策森林和神经网络模型
欢迎来到TensorFlow Decision Forests(TF-DF)的模型组合教程。本教程将向您展示如何使用通用的预处理层和Keras函数式API将多个决策森林和神经网络模型组合在一起。您可能希望将模型组合在一起以提高预测性能(集成),以获得不同建模技术的最佳效果(异构模型集成),在不同数据集上训练模型的不同部分(例如预训练),或创建堆叠模型(例如,一个模型在另一个模型的预测上操作)。本教程涵盖了使用函数式API进行模型组合的高级用例。原创 2023-12-25 00:43:58 · 1264 阅读 · 0 评论 -
工具系列:TensorFlow决策森林_(10)构建Uplifting Model
是一种统计建模技术,用于预测对主体的行动的增量影响。该行动通常被称为可能或可能不会应用的处理。Uplift modeling经常用于有针对性的营销活动中,以预测一个人在接收到营销宣传后进行购买(或任何其他期望的行动)的可能性增加。例如,Uplift modeling可以预测电子邮件的效果。效果被定义为条件概率其中Proutcomepurchase∣Proutcomepurchase∣...是根据接收或不接收电子邮件而购买的概率。原创 2023-12-25 00:47:22 · 1297 阅读 · 0 评论 -
工具系列:TensorFlow Decision Forests_(1)构建、训练和评估模型
决策森林(DF)是一类用于监督分类、回归和排序的机器学习算法。顾名思义,DF使用决策树作为构建块。如今,最流行的DF训练算法是随机森林和梯度提升决策树。TensorFlow决策森林(TF-DF)是一个用于训练、评估、解释和推断决策森林模型的库。在包含数值、分类和缺失特征的数据集上训练一个多类分类随机森林模型。在测试数据集上评估模型。准备模型以供使用。检查模型的整体结构和每个特征的重要性。使用不同的学习算法(梯度提升决策树)重新训练模型。使用不同的输入特征集。更改模型的超参数。原创 2023-12-25 00:28:15 · 1768 阅读 · 0 评论 -
工具系列:TensorFlow决策森林_(6)模型预测
对于神经网络,批次大小会影响模型的质量,最佳值需要在训练过程中由用户确定。然而,其他API,如TensorFlow Serving和C++ API更适合生产系统,因为它们更快速和更稳定。这些值可以是简单的数组(称为张量),也可以是组织成结构的数组(例如,组织在字典中的数组)。特征的模型,这种转换会隐式地执行。然而,对于从磁盘加载的模型,这种转换是不可能的。值得注意的是,Python实例化的模型会自动应用必要的类型转换。特征可以是一个二维数组(其中每列是一个特征,每行是一个示例),也可以是一个数组字典。原创 2023-12-25 00:37:28 · 1085 阅读 · 2 评论 -
工具系列:TensorFlow决策森林_(7)检查和调试决策森林模型
请参见上面的摘要)。是在训练期间计算的模型评估。在本文中,您将学习如何直接检查和创建模型的结构。**注意:**根据学习算法和超参数的不同,inspector将暴露不同的专门属性。在本节中,您将手动创建一个小的随机森林模型。这是随机森林模型的一种流行的。计算OOB变量重要性不会影响最终模型,但会减慢大型数据集的训练速度。由于模型是序列化和反序列化的,您需要使用一种替代但等效的形式。隐藏的代码单元格限制了在colab中的输出高度。手动创建一个随机森林模型,并将其用作经典模型。不同的变量重要性具有不同的语义。原创 2023-12-25 00:41:05 · 1372 阅读 · 0 评论 -
工具系列:TensorFlow决策森林_(9)自动超参数调整
学习算法在训练数据集上训练机器学习模型。学习算法的参数,称为“超参数”,控制模型的训练方式并影响其质量。因此,找到最佳超参数是建模的重要阶段。有些超参数很容易配置。例如,增加随机森林中的树的数量(num_trees)可以提高模型的质量,直到达到一个平台。因此,设置与服务约束兼容的最大值(更多的树意味着更大的模型)是一个有效的经验法则。然而,其他超参数与模型有更复杂的交互,并不能用这样简单的规则来选择。例如,增加梯度提升树模型的最大树深度(max_depth)既可以提高模型的质量,也可以降低模型的质量。原创 2023-12-25 00:46:05 · 1196 阅读 · 0 评论