![](https://img-blog.csdnimg.cn/20201014180756927.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
sklearn
韩绘锦
苟有恒何必三更灯火五更鸡,最无益莫过一日曝十日寒。
展开
-
集成方法
套袋法 自发聚集或者套袋法, 是一种能减少一个估计器方差的集成元算法。套袋法可以用于 分类任务和回归任务。 当组件估计器为回归器时,集成将平均它们的预测结果。当组件估 计器为分类器时, 集成将返回模类。 套袋法能在训练数据的变体上拟合多个模型。 训练数据的变体使用一种称为 自发重采样的流程来创建。通常来说,仅仅使用分布的一个样本来估计一个未知概率分布的参数是 很有必要的。 我们可以使用这个样本来计算一个统计数值,但是这个统计数值将会随我们 恰巧取到的样本而变化。自发重采样是一种估计统计数值不确定性的方法原创 2020-09-08 13:59:47 · 855 阅读 · 0 评论 -
特征提取
从类别变量中提取特征 类别型特征( Categorical Feature ) 主要是指性别 (男、女)、血型( A 、 B、 AB 、 0 ) 等只在高限选I页内取值的特征。 类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入 3,对于逻辑回归、支持向量机等模型来说,类别型特征必须经过处理转换成数值型特征才能正确工作。 one-hot编码 独热编码通常用于处理类别间不具有大小关系的特征。例如血型, 一共有4个取值(A型血、B型血、AB型血、O型血),独热编码会 把血型变成-原创 2020-09-08 10:55:29 · 1816 阅读 · 0 评论