2018年12月_Goodsta

原创【Python实例第30讲】F检验与互信息

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）这个例子演示单变量的F检验统计量与互信息的区别。为此，我们考虑来自区间[0, 1]上的均匀分布的3个不相关的特征 x1,x2,x3x_1, x_2, x_3x1,x2,x3, 目标变量与它们的真实关系如下：y=x1+sin⁡(6πx2)+0.1×N(0,1)y=x_1 + \sin (6\pi x_2) ...

2018-12-31 18:45:43 3456

原创【Python实例第29讲】递归的特征排除法

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）这是一个递归的特征排除例子，显示在一个数字分类的任务里像素的相关性。给定一个外部的估计量，它给特征赋权，比如说线性模型里的回归系数。所谓递归的特征排除(recursive feature elimination, RFE), 它的目标是递归地选择越来越小的特征子集。首先，在初始的特征集上训练估计量，每一个特征的...

2018-12-28 22:50:51 787

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）在多变量统计中，核主成分(kernel principal component analysis, kernel PCA)是主成分的推广，它使用了核方法。使用核函数，将原始的主成分线性变换转换到生成的核希尔伯特空间进行。这样做主要是由于：原始数据点在低维空间不可分，而在高维空间可分。这个例子演示了核PCA能够找到...

2018-12-26 14:43:13 1182

原创【Python实例第27讲】增量PCA

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）主成分是一种重要的降维技术，将数据分解压缩成少数的几个主成分表示。当待分解的数据集太大而不能在内存里拟合时，通常使用增量主成分(Incremental principal component analysis, IPCA)代替普通的主成分方法。IPCA使用独立于样本量的内存容量，创建一个输入数据的低秩近似。它仍然...

2018-12-23 11:26:51 1822

原创【Python实例第26讲】一个主成分的例子

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）主成分(PCA)是一种重要的数据降维技术。PCA位于scikit-learn的decomposition模块里。在这个例子里，我们演示如何在Iris数据集上应用主成分。实例代码首先，加载必需的库。import numpy as npimport matplotlib.pyplot as pltfrom ...

2018-12-20 13:16:05 1765

原创【Python实例第25讲】稳健的 vs 经验的协方差估计

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）通常的协方差最大似然估计对数据集里的异常点(outliers)是非常敏感的。在这样的情况下，使用稳健的协方差估计，保证对即使数据集存在错误的观测，估计量也是一致的。极小极大协方差行列式估计极小极大协方差行列式估计量(Minimum Covariance Determinant Estimator, MCDE)...

2018-12-16 08:41:05 1902

原创【Python实例第24讲】稀疏的可逆协方差估计

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）在这个例子里，我们使用GraphicalLasso估计量从一个小样本里学习协方差和稀疏的精度矩阵。为了估计一个概率模型，比如说高斯模型，估计它的精度矩阵，即，协方差阵的逆，是非常重要的估计过程。事实上，一个高斯模型由精度矩阵参数化。为了验证结果，我们从具有稀疏的可逆协方差阵的模型抽样数据。另外，我们要确保数据...

2018-12-13 10:05:44 2515 1

原创【Python实例第23讲】Ledoit-Wolf 协方差估计法

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）通常的协方差最大似然估计能够使用缩水(shrinkage)的方法正则化。Ledoit and Wolf在2004年提出，通过最小化MSE的准则，计算渐近最优的缩水参数，产生了以他们的名字命名的Ledoit-Wolf协方差估计法。chen等人进一步在2010年提出了Ledoit-Wolf缩水参数的改进，即，OAS系...

2018-12-08 13:31:30 5146

原创【Python实例第22讲】不同聚类算法的比较分析

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）这个例子演示不同的聚类算法用于6个标准数据集(toy datasets)聚类上的特性。这6个数据集分别是：noisy_circles: 数据点围成大小两个同心圈状。noisy_moons: 数据点构成两个交错的半圆。blobs: 数据点形如团状高斯块。varied: 可变方差的数据块。...

2018-12-06 15:44:25 2705

原创【Python实例第21讲】确定类个数的silhouette分析法

机器学习训练营——机器学习爱好者的自由交流空间（qq 群号：696721295）在聚类问题中，Silhouette分析用来研究聚类结果的类间距离。Silhouette数值度量在相同类中的点，与不同类中的点相比的紧密程度。Silhouette图可视化这一测度，这样就提供了一种评价类个数的方法。Silhouette值在[-1, 1]内，接近1表示样本远离邻近类，取0表示样本几乎在两个近邻类的决...

2018-12-01 12:22:43 15572 2

wong2016的博客