无监督学习-python
文章平均质量分 95
yb705
一个初出茅庐的数据分析员
展开
-
无监督学习——聚类评估
序在用聚类算法时,其挑战之一就是很难评估一个算法的效果好坏,也很难比较不同算法的结果.在讨论完k均值,凝聚聚类和DBSCAN背后的算法之后,下面我们来说一下如何对聚类进行评估.有很多地方做的不是很好,欢迎网友来提出建议,也希望可以遇到些朋友来一起交流讨论。...原创 2021-08-30 16:21:03 · 1266 阅读 · 1 评论 -
无监督学习——DBSCAN
序与之前提到的凝聚聚类,K均值聚类类似,DBSCAN也是一个非常有用的聚类算法。它的主要优点是它不需要用户先验地设置簇的个数,可以划分具有复杂形状的簇,还可以找出不属于任何簇的点。DBSCAN比凝聚聚类和k均值稍慢,但仍可以扩展到相对较大的数据集。接下来,我“简单”地介绍一下算法的原理(PS:大概看一下就好)。算法原理DBSCAN的全称是具有噪声的基于密度的空间聚类应用。顾名思义,DBSCAN的原理是识别特征空间的“拥挤”区域中的点,在这些区域中许多数据点靠近在一起。这些区域被称为特征空间中的密集区原创 2021-08-25 16:04:03 · 763 阅读 · 1 评论 -
无监督学习——凝聚聚类
序凝聚聚类指的是许多基于相同原则构建的聚类算法,这一原则是:算法首先声明每个点是自己的簇,然后合并两个最相似的簇,直到满足某种停止规则为止。scikit-learn中实现的停止规则是簇的个数,因此相似的簇被合并,直到仅剩下指定个数的簇。还有一些链接准则,规定如何度量”最相似的簇“。这种度量总是定义在两个现有的簇之间。有很多地方做的不是很好,欢迎网友来提出建议,也希望可以遇到些朋友来一起交流讨论。...原创 2021-08-13 15:53:53 · 975 阅读 · 1 评论 -
无监督学习——K均值聚类(下)
序之前我们讲了聚类中比较常用的K均值算法,包括原理,相关参数以及实际操作。那么本篇文章,我们来讲一下更复杂一点的内容,即K均值,PCA与NMF之间的比较。希望大家在阅读下面的内容之前,已经了解了K均值,PCA与NMF算法的基础知识。如果不清楚的话,可以点击下面的链接,来简单阅读下:K均值:无监督学习——K均值聚类(上)PCA:主成分分析(PCA)应用(上);主成分分析(PCA)应用(下)NMF:非负矩阵分解(NMF)矢量量化,或者将k均值看作分解虽然k均值是一种聚类算法,但在k均值和分解方法(原创 2021-08-06 15:51:04 · 375 阅读 · 1 评论 -
无监督学习——K均值聚类(上)
序近几年在机器学习领域里面,聚类是比较热门的一个词汇。它是将数据集划分成组的任务,这些组叫做簇。其目标是划分数据,使得一个簇内的数据点非常相似且簇内的数据点非常不同。与分类算法相似,聚类算法为每个数据点分配(或预测)一个数字,表示这个点属于哪个簇。但是,与分类算法不同的是,聚类属于无监督学习,也就是说事先并不知道数据集的标签或者说特征值分类,而分类算法是监督学习,意味着已经提前知道了数据点的所属类别。接下来,我重点介绍下聚类里面比较常用的算法——k均值聚类。K均值聚类1.算法介绍k均值聚类是最简单也原创 2021-07-30 14:19:27 · 2460 阅读 · 1 评论 -
无监督学习——流形学习(t-SNE)
序之前我们已经说过PCA通常是用于数据变换的首选方法,使人能够用散点图将其可视化,但这一方法的性质(先旋转然后减少方向)限制了其有效性。而有一类可用于可视化的算法叫做流形学习算法,它允许进行更复杂的映射,通常也可以给出更好的可视化。其中一个特别有用的算法就是t-SNE算法。PCA原理传送门:无监督学习与主成分分析(PCA)算法原理流形学习算法主要用于可视化,因此很少用来生成两个以上的新特征。其中一些算法(包括t-SNE)计算训练数据的一种新表示,但不允许变换新数据。这意味着这些算法不能用于测试集:准原创 2021-07-08 15:40:00 · 1622 阅读 · 3 评论 -
无监督学习——非负矩阵分解(NMF)
序非负矩阵分解(NMF)是一种无监督学习算法,其目的在于提取有用的特征。它的工作原理类似于PCA,也可以用于降维。与PCA相同,我们试图将每个数据点写成一些分量的加权求和。但在PCA中,我们想要的是正负分量,并且能够解释尽可能多的数据方差;而在NMF中,我们希望分量和系数均为负,也就是说,我们希望分量和系数都大于或等于0。因此,NMF只能应用于每个特征都是非负的数据,因为非负分量的非负求和不可能变为负值。将数据分解成非负加权求和的这个过程,对由多个独立源相加(或叠加)创建而成的数据特别有用,比如多人说话原创 2021-07-02 15:22:26 · 4074 阅读 · 3 评论 -
主成分分析(PCA)应用——特征提取_人脸识别(下)
主成分分析(PCA)应用——特征提取/人脸识别(下)序在上一篇文章中,我简单说了下利用python对图像进行操作的基础知识,不了解这方面的小伙伴可以去查看下。(传送门——主成分分析(PCA)应用——特征提取_人脸识别(上))接下来我们来看一下关于人脸识别的模型训练,以及PCA对机器学习流程的优化。数据集就是我们在主成分分析(PCA)应用——特征提取_人脸识别(上)中已经处理完的图像数据,这里就不再赘述了。模型训练人脸识别的一个常见任务就是看某个前所未见的人脸是否属于数据库中的某个已知人物。这在照原创 2021-06-25 16:33:50 · 1745 阅读 · 1 评论 -
主成分分析(PCA)应用——特征提取_人脸识别(上)
主成分分析(PCA)应用——特征提取/人脸识别(上)序我在另一篇文章《无监督学习与主成分分析(PCA)》中已经讲过关于PCA的原理,以及它的其中一个应用——降维。那么本篇文章我来说一下PCA的另一个应用——特征提取。特征提取背后的思想是,可以找到一种数据表示,比给定的原始表示更适合分析。特征提取很有用,它的一个很好的应用实例就是最近几年很火的人脸(图像)识别。考虑到有很多小伙伴不了解图像的处理,所以我们分成上下两篇来进行讲解。本篇先讲解图像的基础以及python通常是如何处理图像的。数据来源L原创 2021-06-25 15:41:44 · 5101 阅读 · 1 评论 -
无监督学习与主成分分析(PCA)
无监督学习与主成分分析(PCA)-降维序在之前的文章中,我讲了很多的监督学习的算法(线性模型,SVM,决策树,神经网络等),那么接下来,我们要开始接触无监督学习了。首先,我们先说下相关概念。无监督学习与监督学习不同,在无监督学习中,学习算法只有输入数据,并且从数据中提取需要的知识。而其中有两种常用类型:数据集变换和聚类。无监督变换是创建数据新的表示的算法,与数据的原始表示相比,新的表示可能更容易被人或其它机器学习算法所理解。而无监督变换的一个常见应用就是降维,它接受包含许多特征的数据的高维表示,并原创 2021-06-17 15:34:47 · 4104 阅读 · 5 评论 -
python机器学习之数据预处理与缩放
python 机器学习之数据预处理与缩放序之前我们在接触监督学习时了解到,有一些算法(譬如神经网络和SVM)对于数据的缩放非常敏感。因此,通常的做法是对数据集进行调节,使得数据表示更适合于这些算法。通常来说,这是对数据特征的一种简单的缩放和移动。机器学习的理论实际上是起源于概率论与数理统计,接下来,我们来简单提几个相关概念,来帮助大家更好地理解接下来的要说的几种处理方法。基础概念中位数——对于一组数字来说,中位数指的是这样的数值x:有一半的数值小于x,另一半的数值大于x。如果数据集的数据个数是偶数原创 2021-06-10 14:59:52 · 2353 阅读 · 3 评论