sklearn
yuanlulu
做过嵌入式Linux开发、深度学习平台开发。擅长c++和python。
展开
-
sklearn+python:线性回归
使用一阶线性方程预测波士顿房价载入的数据是随sklearn一起发布的,来自boston 1993年之前收集的506个房屋的数据和价格。load_boston()用于载入数据。from sklearn.datasets import load_bostonfrom sklearn.model_selection import train_test_splitimport timef...原创 2018-07-16 16:58:58 · 2168 阅读 · 0 评论 -
吴恩达视频课程之异常检测笔记
概述本笔记整理自网易云课堂吴恩达的《机器学习》。吴恩达所讲的异常检测属于无监督学习。即利用已有的无标签数据求取样本的分布模型参数(正太分布参数),然后对新来的数据计算属于这个分布的概率,当概率大于一个阈值时认为测数据是正常的,否则认为是异常数据。(由于插入图片和公式不方便,本文没有图片和公式)异常检测的一些场景工程诊断(发动机异常检测)、异常行为检测、数据中心硬件监控等。...原创 2018-08-06 23:12:21 · 1767 阅读 · 0 评论 -
sklearn+python:逻辑回归
概述逻辑回归是一种分类算法,并不是线性回归的子类sklearn:使用逻辑回归诊断乳腺癌使用sklearn自带的乳腺癌数据,逻辑回归用来诊断是阴性还是阳性。这个数据集有569个样本,每个样本有30个特征,共357的阳性(y=1)样本,212个阴性(y=0)样本. 本例子使用90%的例子做训练,10%的例子做测试。from sklearn.model_selection im...原创 2018-07-17 01:09:00 · 6426 阅读 · 0 评论 -
sklearn+python:无监督学习之k_means
K均值简介K均值是一种无监督学习算法,在没有标签的训练样本中学习到聚类的中心点,后续测试数据可以计算和聚类中心的距离,归类到距离最近的聚类中心上。随机初始化只要K的值比样本少,可以随机选择K个样本作为初始簇心。初始化状态的不同,最终得到的结果也会不同,有些情况下K均值会收敛到局部最优解。解决局部最优的方法就是多次随机初始化运行,选择最终成本最小的分类方案。但是如果K特别大,...原创 2018-07-15 15:52:22 · 1646 阅读 · 1 评论 -
svm核函数
svm的分类根据数据可分的情况,svm分为3种: - 线性可分支持向量机(没有噪音和异常数据,分隔超平面可以在训练数据集做到100%准确) - 线性支持向量机(有噪音和异常数据,分隔超平面无法在训练数据集做到100%准确) - 非线性支持向量机(数据集不是线性可分的,必须借助升维)上面三种svm由简到繁,其实所有的svm都可以可以统一写为带核函数的推理形式。前两种情况下可以选择不用核...原创 2018-07-14 23:00:04 · 3163 阅读 · 0 评论 -
svm的几个疑问
支持向量所在的超平面为何是theta^t * x= -1 和theta^t * x = -1(有时也写为theta^t * x + b = 0的形式,但是把x0总设为1,b也可以作为theta的一部分)李航的《统计学习方法》里有比较严密的推导,可是我看不太懂。但是书里提到,合页损失函数和那套推理是等价的,所以可以用吴恩达在《机器学习》课程里的图来理解。至于为什么等价,请看书。逻辑回归的...原创 2018-07-14 21:24:56 · 1047 阅读 · 1 评论 -
支持向量机SVM:使用sklearn+python
代码参考了别人的代码(http://ihoge.cn/2018/SVWSVC.html),增加了保存模型和打印信息。这个例子主要是演示3种不同的核函数(线性核,高斯核和多项式核)的用法。使用的数据是自动生成的,生成数据的接口是make_blobs。from sklearn import svmfrom sklearn.datasets import make_blobsfr...原创 2018-07-12 10:40:25 · 8756 阅读 · 1 评论 -
sklearn+python::主成分分析-PCA
概述PCA是一种降维算法,可以用来对数据进行压缩,或者降维后进行可视化显示。把n维数据降维k维数据时,就是要找出合适的k个向量,把n维数据投射到这k个向量决定的线性空间中,最终使投射误差最小化。衡量PCA算法的指标是数据还原率(与失真度互补),这个指标由(1 - (平均投射误差的平方除以所有样本到原点的平均距离))得到。如果数据还原率为99%,我们就可以说99%的数据真实性被保存下来了...原创 2018-07-22 16:27:35 · 2347 阅读 · 0 评论 -
sklearn中的异常检测
参考资料:https://blog.csdn.net/hustqb/article/details/75216241 http://sklearn.apachecn.org/cn/0.19.0/modules/outlier_detection.html概述本节内容主要来自sklearn的官方文档。本节内容属于无监督学习。许多应用需要能够对新观测进行判断,判断其是否与现有观测服从...翻译 2018-07-26 19:59:49 · 5977 阅读 · 0 评论 -
sklearn+python:朴素贝叶斯及文本分类
朴素贝叶斯贝叶斯定理用来计算条件概率,即:然后进行一种朴素(naive)的假设-每对特征之间都相互独立:在给定的输入中 P(x_1, \dots, x_n) 是一个常量,我们使用下面的分类规则:可以使用最大后验概率(Maximum A Posteriori, MAP) 来估计 P(y) 和 P(x_i | y) ; 前者是训练集中类别 y 的相对频率。各种各样的的朴...原创 2018-09-09 15:41:43 · 9644 阅读 · 2 评论