自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(6)
  • 收藏
  • 关注

原创 【Python实例第6讲】多标签分类

机器学习训练营——机器学习爱好者的自由交流空间(qq 群号:696721295)分类原理本例模拟一个多标签文档分类问题。数据集根据下面的过程随机产生。选择标签数 n: 来自泊松分布。选择一个类别 c: 来自多项分布。选择文档长度 k: 来自泊松分布。选择一个单词 w: 来自多项分布。在上述过程里,使用拒绝采样(rejection sampling)确保n&gt...

2018-09-25 14:26:37 6772 1

原创 【Python实例第5讲】Pipeline与GridSearchCV降维法

机器学习训练营——机器学习爱好者的自由交流空间(qq 群号:696721295)本例构造一个降维管道(pipeline), 通过它做一个支持向量分类器预测。在这里,我们演示使用函数GridSearchCV和Pipeline优化不同类型的估计量。请注意,Pipeline能通过参数memory实例化,将转换器存储在管道里,避免重复拟合相同的转换器。Pipeline and GridSearch...

2018-09-22 10:24:08 2094

原创 【Python实例第4讲】填补缺失值

机器学习训练营——机器学习爱好者的自由交流空间(qq 群号:696721295)在这个例子里,我们向大家展示填补缺失值比丢弃它们得到的结果更好。但是请注意,缺失值填补并不总会改善预测结果,所以请使用交叉验证评价。有的时候,丢弃缺失行或使用标记值反而更有效。 一般时候,缺失值可以用均值、中位数或众数代替。当变量较多时,用中位数代替是一种稳健的方法。在本例中,填补将有助于分类器接近原始分...

2018-09-14 09:22:11 7328

原创 【Python实例第3讲】管道:连接主成分和Logistic回归

机器学习训练营——机器学习爱好者的自由交流空间(qq 群号:696721295)众所周知,主成分(PCA)是一种无监督的降维方法,而Logistic回归则做预测问题。本例的目的是将二者结合起来,使用函数GridSearchCV设置主成分的维度。这里要用到scikit-learn自带数据集——“手写数字数据集”。数据集介绍“手写数字数据集”在datasets里,由1,797个...

2018-09-10 13:36:18 1756

原创 【Python实例第2讲】特征提取集成方法

机器学习训练营——机器学习爱好者的自由交流空间(qq 群号:696721295)在现实场景的例子里,有很多从数据集提取特征的方法。通常,将几种特征提取方法组合使用会收到更好的效果。本例显示怎样使用函数FeatureUnion组合特征。这里要用到scikit-learn自带数据集——“鸢尾花数据集”。数据集介绍“鸢尾花(Iris)数据集”位于datasets里,是由著名统计学...

2018-09-07 09:46:03 2793 1

原创 【Python实例第1讲】交叉验证预测曲线的画法

机器学习训练营——机器学习爱好者的自由交流空间(qq 群号:696721295)本例显示如何使用cross_val_predict函数可视化模型预测误差。这里要用到scikit-learn自带数据集——“波士顿房价数据集”。数据集介绍“波士顿房价数据集”位于datasets里,包括13个特征。首先,我们来看一看这个数据集的属性的详细信息。from sklearn i...

2018-09-03 15:31:16 3587 3

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除