算法链与管道

算法链:大多数机器学习应用不仅需要应用单个算法,而且还需要将许多不同的处理步骤和机器学习模型链接在一起。

管道:简化构建变换和模型链的过程。

注:在交叉验证过程中,应该在进行任何预处理之前完成数据集的划分。任何从数据集提取信息的处理过程都应该仅用于数据集的训练部分,因此,任何交叉验证都应该位于处理过程的“最外层循环”。

构建管道

构建一个步骤列表组成的管道对象。每个步骤都是一个元组,其中包含名称和估计器的一个实例

要求 : 除了最后一步以外的所有步骤都需要具有transform方法,可以生成新的数据表示,以供下一个步骤使用

管道内部依次对每个步骤调用fit和transform,输入是前一个步骤的输出。最后一步仅调用fit。

优点

  • 减少了“预处理+分类”过程所需要的代码量
  • 可以在交叉验证或网格搜索中使用这个估计器

在网格搜索中使用管道

变化 需要为每个参数指定它在管道中所属的步骤。

在交叉验证中,信息泄露的影响大小取决于预处理步骤的性质。使用测试部分来估计数据的范围,通常不会产生可怕的影响,但在特征提取和特征选择中使用测试部分,则会导致结果的显著差异。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值