Scikit-Learn
文章平均质量分 59
Wang_AI
这个作者很懒,什么都没留下…
展开
-
sklearn.pipeline.Pipeline类的用法
这一篇我会总结sklearn.pipeline.Pipeline。1、sklearn.pipeline.Pipeline类先给出官方的文档链接:http://scikit-learn.org/stable/modules/generated/sklearn.pipeline.Pipeline.htmlclass sklearn.pipeline.Pipeline(steps)转载 2016-04-17 19:11:00 · 2404 阅读 · 0 评论 -
分类器性能评估之混淆矩阵(1)
跑完分类模型(Logistic回归、决策树、神经网络等),我们经常面对一大堆模型评估的报表和指标,如Confusion Matrix、ROC、Lift、Gini、K-S之类(这个单子可以列很长),往往让很多在业务中需要解释它们的朋友头大:“这个模型的Lift是4,表明模型运作良好。——啊,怎么还要解释ROC,ROC如何如何,表明模型表现良好……”如果不明白这些评估指标的背后的直觉,就很可能陷入这样转载 2016-05-06 20:45:05 · 4066 阅读 · 0 评论 -
分类器性能评估之ROC和AUC(2)
ROC上回我们提到,ROC曲线就是不同的阈值下,以下两个变量的组合(如果对Sensitivity和Specificity两个术语没有概念,不妨返回,《分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵》,强烈建议读者对着看):Sensitivity(覆盖率,True Positive Rate)1-Specificity (Specificity,转载 2016-05-06 20:48:02 · 1549 阅读 · 0 评论 -
使用sklearn优雅地进行数据挖掘
1 使用sklearn进行数据挖掘1.1 数据挖掘的步骤 数据挖掘通常包括数据采集,数据分析,特征工程,训练模型,模型评估等步骤。使用sklearn工具可以方便地进行特征工程和模型训练工作,在《使用sklearn做单机特征工程》中,我们最后留下了一些疑问:特征处理类都有三个方法fit、transform和fit_transform,fit方法居然和模型训练方法fit同名(不光同名转载 2016-05-06 15:16:49 · 3122 阅读 · 0 评论 -
使用sklearn做特征工程
1 特征工程是什么? 有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。那特征工程到底是什么呢?顾名思义,其本质是一项工程活动,目的是最大限度地从原始数据中提取特征以供算法和模型使用。通过总结和归纳,人们认为特征工程包括以下方面: 特征处理是特征工程的核心部分,sklearn提供了较为完整的特征处理方法,包括数据预处理,特征选择,降维等。...转载 2016-05-06 15:10:17 · 11052 阅读 · 0 评论 -
Chapter1—Basic of Machine Learning
1 监督学习(supervised learn)与无监督学习(unsupervised learn)机器学习系统通常被看作是有无人类监督学习两种方式。监督学习问题是,从成对的已经标记好的输入和输出经验数据作为一个输入进行学习,用来预测输出结果,是从有正确答案的例子中学习。而无监督学习是程序不能从已经标记好的数据中学习。它需要在数据中发现一些规律。假如我们获取了人的身高和体重数据,非监督学习的例原创 2016-05-03 18:19:42 · 6668 阅读 · 0 评论 -
应用机器学习建议
这篇文章是以Bremen大学机器学习课程的教程为基础的。本文总结了使用机器学习解决新问题的一些建议。包括:可视化数据的方法选择一个适合当前问题的机器学习方法鉴别和解决过拟合和欠拟合问题 处理大数据库问题(注意:不是非常小的) 不同损失函数的利弊本文以Andrew Ng的《应用机器学习的建议 | Advice for applying Machine Learning》为基础。这个笔转载 2016-05-03 17:24:35 · 1250 阅读 · 0 评论 -
sklearn数据预处理
本文小编通过用sklearn的preprocessing模块来介绍常见的数据预处理方法。1. 标准化 (Standardization) 变换后各维特征有0均值,单位方差。也叫z-score规范化(零均值规范化)。计算方式是将特征值减去均值,除以标准差。>>> sklearn.preprocessing.scale(X) 一般会把train和转载 2016-05-03 16:30:30 · 1652 阅读 · 0 评论 -
通过euclidean_distances计算向量之间的距离
在scikit-learn包中,有一个euclidean_distances方法,可以用来计算向量之间的距离。from sklearn.metrics.pairwise import euclidean_distancesfrom sklearn.feature_extraction.text import CountVectorizercorpus = ['UNC played Duk原创 2016-04-18 13:35:12 · 13045 阅读 · 0 评论 -
sklearn.preprocessing.PolynomialFeatures类的使用
在之前的代码中多次出现了使用sklearn.pipeline.Pipeline和sklearn.preprocessing.PolynomialFeatures这两个类。我在找相关资料的时候发现很少有写这方面的文章和博客。除了官网的英文文档,其实这个文档写的非常好。但考虑到自己的英文水平有限,于是想写点什么来记录这两个类。1、sklearn.preprocessing.PolynomialFe转载 2016-04-17 19:08:45 · 2459 阅读 · 0 评论 -
分类器性能评估之Lift和Gain(3)
书接前文。跟ROC类似,Lift(提升)和Gain(增益)也一样能简单地从以前的Confusion Matrix以及Sensitivity、Specificity等信息中推导而来,也有跟一个baseline model的比较,然后也是很容易画出来,很容易解释。以下先修知识,包括所需的数据集:分类模型的性能评估——以SAS Logistic回归为例(1): 混淆矩阵分类模型的性能评估——转载 2016-05-06 20:52:47 · 8548 阅读 · 0 评论