sklearn
晓东邪
扎实基础,记录学习点滴。
展开
-
sklearn中的交叉验证(Cross-Validation)
这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址sklearn是利用python进行机器学习中一个非常全面和好用的第三方库,用过的都说好。今天主要记录一下sklearn中关于交叉验证的各种用法,主要是对sklearn官方文档 Cross-validation: evaluating estimator performance进行讲解,英文水平好...原创 2017-05-14 01:49:30 · 136697 阅读 · 4 评论 -
机器学习练习数据来源
我在github 上建了个repo DataSetForMachineLearning,用来存放各种数据集,如果有需要,欢迎star。进行机器学习时,有时候需要一些数据做练手,数据从何而来呢,可以充分利用一些库,像sklearn,seaborn 都是自带一些数据的(如常见的iris花卉,titanic泰坦尼克号数据。。。),可以通过如下方式获取:sklearnIn [80]: f...原创 2018-02-01 18:27:41 · 1968 阅读 · 0 评论 -
聚类后的类别对应
有时候我们会用sklearn进行数据聚类,但是聚类后如何将预测输出与实际进行对应,可以考虑如下两个方式:from collections import Counterfrom sklearn.mixture import GaussianMixturefrom sklearn.naive_bayes import GaussianNBfrom sklearn.decomposition impo原创 2018-01-03 17:40:50 · 4949 阅读 · 0 评论 -
scikit-learn 线性回归算法库小结
转载:scikit-learn 线性回归算法库小结转载 2017-12-25 20:19:06 · 447 阅读 · 0 评论 -
机器学习性能改善速查
机器学习性能改善:原创 2017-05-08 14:21:39 · 5210 阅读 · 0 评论 -
特征选择的几种方式(降维)
1、PCA 主成分分析2、LDA 线性判别式分析3、MDS 多维标度法4、皮尔逊相关系数5、互信息(信息熵)6、RFE 特征递归消除先挖坑,待有空填上~原创 2017-09-26 23:08:16 · 2781 阅读 · 0 评论 -
将m行*n列数组转换为最大值为1最小值为0的相同shape数组
今天遇到个问题,给定一个m行*n列数组,将每行中最大值转换为1, 最小值转换为0,返回相同shape的一个数组,初遇到纠结了一会儿,不过很快也就搞定了,方法主要有2个, 如下:In [54]: import numpy as npIn [55]: arr = np.random.randn(10, 5)In [56]: arrOut[56]: array([[ 0.18857493, 0.46原创 2017-08-03 15:57:33 · 9011 阅读 · 0 评论 -
sklearn通过OneVsRestClassifier实现svm.SVC的多分类
这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址svm.SVC 支持向量机分类是一个很有效的分类方式,但是其只对2分类有效,不过,可以将多分类经过多次2分类最终实现多分类,而sklearn中的multiclass包就可以实现这种方式,减少我们重复造轮子。import numpy as npfrom sklearn.datasets imp...原创 2017-07-28 10:10:18 · 26960 阅读 · 4 评论 -
sklearn中的Pipeline
一般来说,使用sklearn建模时步骤如下: 0、start 1、分隔训练集和测试集(和验证集) 2、数据预处理 3、模型选择 4、使用GridSearchCV进行参数寻优 5、end其中,数据预处理部分可能需要先fit_transform再transform,相对较为繁琐,此时可以通过Pipeline(管道)进行流水线处理。 代码讲解如下:#导入需要的包In [296]: impo原创 2017-08-10 11:43:49 · 24453 阅读 · 0 评论 -
如何为你的机器学习问题选择合适的算法?
机器学习算法选择速查 机器学习算法选择速查表介绍 机器学习算法速查使用指南 随着机器学习越来越流行,也出现了越来越多能很好地处理任务的算法。但是,你不可能预先知道哪个算法对你的问题是最优的。如果你有足够的时间,你可以尝试所有的算法来找出最优的算法。本文介绍了如何依靠已有的方法(模型选择和超参数调节)去指导你更好地去选择算法。本文作者为华盛顿大学 eScience Institute 和 Ins转载 2017-04-25 21:58:56 · 8095 阅读 · 0 评论 -
用pybrain构建BP神经网络
pybrain是一个python关于构建神经网络的包, 官方文档:http://pybrain.org/docs/index.html 安装:$ git clone git://github.com/pybrain/pybrain.git$ python setup.py install以sklearn作为辅助构建BP神经网络并保存,可二次读取使用。建立BP回归模型#coding:utf-原创 2017-04-26 18:28:02 · 10183 阅读 · 5 评论 -
机器学习中的特征工程
引言在之前学习机器学习技术中,很少关注特征工程(Feature Engineering),然而,单纯学习机器学习的算法流程,可能仍然不会使用这些算法,尤其是应用到实际问题的时候,常常不知道怎么提取特征来建模。特征是机器学习系统的原材料,对最终模型的影响是毋庸置疑的。 特征工程的重要意义数据特征会直接影响你使用的预测模型和实现的预测结果。准备和选择的特征越好,则实现的结果越好。影响预测结果好坏的因素:转载 2017-02-19 22:54:54 · 5625 阅读 · 0 评论 -
准确率Accuracy,精确度Precision,召回率Recall,F1值
1.什么是分类准确率?评价分类器性能的指标一般是分类准确率(Accuracy),其定义是:对于给定的测试数据集,分类器正确分类的样本数和总样本数之比。对于二分类问题常见的评价指标是精确率(precision)与召回率(recall)。 通常以关注的类为正类,其他类为负类,分类器在测试数据集上的预测或正确或不正确,四种情况出现的总数分别记作: TP ——将正类预测为正类数(True Posit原创 2017-03-27 22:16:33 · 18249 阅读 · 0 评论 -
神经网络及机器学习中一些专有名词缩写
缩写AR autoregressive 自回归BPTT back propagation through time 通过时间的反向传播BM Boltzmann machine Boltzmann机BP back propagation 反向传播BSB brain-state-in-a-box 脑中盒状态BSS blind source (signa原创 2017-04-19 14:37:08 · 5310 阅读 · 0 评论 -
sklearn中的svm参数介绍
svm是sklearn中一个关于支持向量机的包,比较常用,在使用过程中若是不熟悉各个参数的意义,总以默认参数进行机器学习,则不能做到最优化使用SVM,这就是一个较为遗憾的事情了。为了加深理解和方便调用,根据现有理解,结合官方文档,对其中的参数做一些记录,方便自己时常温习,也给阅读者进行一些错粗浅的介绍,如果有理解错误的地方,希望阅读者能够指出。以svm中的支持向量分类SVC作为介绍,所有参数如下:c原创 2017-04-24 23:52:11 · 26778 阅读 · 1 评论 -
Python机器学习算法速查
常见的机器学习算法以下是最常用的机器学习算法,大部分数据问题都可以通过它们解决:线性回归 (Linear Regression)逻辑回归 (Logistic Regression)决策树 (Decision Tree)支持向量机(SVM)朴素贝叶斯 (Naive Bayes)K邻近算法(KNN)K-均值算法(K-means)随机森林 (Random Forest)降低维度算法(Di原创 2017-02-20 21:07:50 · 5062 阅读 · 0 评论 -
对sklearn训练结果进行保存(joblib或pickle或cPickle的使用问题记录)
在使用sklearn对模型进行训练时需要保存模型数据,官方文档对此提供了两种方案:>>> from sklearn import svm>>> from sklearn import datasets>>> clf = svm.SVC()>>> iris = datasets.load_iris()>>> X, y = iris.data, iris.target>>> clf.fit(X原创 2017-04-27 15:08:38 · 12295 阅读 · 0 评论 -
比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南读后感
这个repo 用来记录一些python技巧、书籍、学习链接等,欢迎stargithub地址比PCA降维更高级——(R/Python)t-SNE聚类算法实践指南,看到了代码运行后的图片显示效果,因为好奇是如何做到patch块显示无重叠,就想研究下python代码,但是里面的代码是没缩进的,运行是指定没法运行的,本来是懒得改缩进,想搜下看有没格式正确的,很遗憾,没搜到,就自己锊下逻辑还原了...原创 2018-04-12 10:17:54 · 736 阅读 · 0 评论