吴恩达机器学习课程笔记+代码实现(20)13.聚类(Clustering)

这篇博客介绍了吴恩达机器学习课程中的聚类算法,重点讲解了K-均值算法的工作原理、优化目标、随机初始化、选择聚类数的方法,以及K-均值在市场分割、社交网络分析等领域的应用。同时,讨论了如何通过肘部法则来确定最佳聚类数量,并提到了聚类效果的评价指标。
摘要由CSDN通过智能技术生成

13.聚类(Clustering)



本章编程作业及代码实现部分见:Python实现聚类(Programming Exercise 7.1)

13.1 无监督学习:简介

       在这个笔记中,将开始介绍聚类算法。

       那么,什么是非监督学习呢?在课程的一开始,我曾简单的介绍过非监督学习,然而,我们还是有必要将其与监督学习做一下比较。

       在一个典型的监督学习中,我们有一个带有标签的训练集,我们的目标是找到能够区分正样本和负样本的决策边界,据此拟合一个假设函数。与此不同的是,在非监督学习中,我们的数据没有附带任何标签,我们拿到的数据就是这样的:
       在这里插入图片描述
       在这里我们有一系列点,却没有标签。因此,我们的训练集可以写成只有 x ( 1 ) x^{(1)} x(1), x ( 2 ) x^{(2)} x(2)……一直到 x ( m ) x^{(m)} x(m)。我们没有任何标签 y y y。因此,图上画的这些点没有标签信息。也就是说,在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。我们可能需要某种算法帮助我们寻找一种结构。图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法。

       这将是我们介绍的第一个非监督学习算法。当然,此后我们还将提到其他类型的非监督学习算法,它们可以为我们找到其他类型的结构或者其他的一些模式,而不只是簇。

       我们将先介绍聚类算法。那么聚类算法一般用来做什么呢?
       在这里插入图片描述

       在这门课程的早些时候,我曾经列举过一些应用:比如市场分割。也许你在数据库中存储了许多客户的信息,而你希望将他们分成不同的客户群,这样你可以对不同类型的客户分别销售产品或者分别提供更适合的服务。社交网络分析:事实上有许多研究人员正在研究这样一些内容,他们关注一群人,关注社交网络,例如FacebookGoogle+,或者是其他的一些信息,比如说:你经常跟哪些人联系,而这些人又经常给哪些人发邮件,由此找到关系密切的人群。因此,这可能需要另一个聚类算法,你希望用它发现社交网络中关系密切的朋友。我有一个朋友正在研究这个问题,他希望使用聚类算法来更好的组织计算机集群,或者更好的管理数据中心。因为如果你知道数据中心中,那些计算机经常协作工作。那么,你可以重新分配资源,重新布局网络。由此优化数据中心,优化数据通信。

13.2 K-均值算法

       K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。

       K-均值是一个迭代算法,假设我们想要将数据聚类成n个组,其方法为:

       首先选择 K K K个随机的点,称为聚类中心cluster centroids);

       对于数据集中的每一个数据,按照距离 K K K个中心点的距离,将其与距离最近的中心点关联起来,与同一个中心点关联的所有点聚成一类。

       计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。

       重复步骤2-4直至中心点不再变化。

       下面是一个聚类示例:

       在这里插入图片描述

       迭代 1 次
       在这里插入图片描述

       迭代 3 次
       在这里插入图片描述
       迭代 10 次

       用 μ 1 μ^1 μ1, μ 2 μ^2 μ2,…, μ k μ^k μk 来表示聚类中心,用 c ( 1 ) c^{(1)} c(1), c ( 2 ) c^{(2)} c(2),…, c ( m ) c^{(m)} c(m)来存储与第 i i i个实例数据最近的聚类中心的索引,K-均值算法的伪代码如下:

Repeat {

for i = 1 to m

c(i) := index (form 1 to K) of cluster centroid closest to x(i)

for k = 1 to K

μk := average (mean) of points assigned to cluster k

}

       算法分为两个步骤,第一个for循环是赋值步骤,即:对于每一个样例 i i i,计算其应该属于的类。第二个for循环是聚类中心的移动,即:对于每一个类 K K K,重新计算该类的质心。

       K-均值算法也可以很便利地用于将数据分为许多不同组,即使在没有非常明显区分的组群的情况下也可以。下图所示的数据集包含身高和体重两项特征构成的,利用K-均值算法将数据分为三类,用于帮助确定将要生产的T-恤衫的三种尺寸。

       在这里插入图片描述

13.3 优化目标

       K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此
       K-均值的代价函数(又称畸变函数 Distortion function)为:

J ( c ( 1 ) , . . . , c ( m ) , μ 1 , . . . , μ K ) = 1 m ∑ i = 1 m ∥ X ( i ) − μ c ( i ) ∥ 2 J(c^{(1)},...,c^{(m)},μ_1,...,μ_K)=\dfrac {1}{m}\sum^{m}_{i=1}\left\| X^{\left( i\right) }-\mu_{c^{(i)}}\right\| ^{2} J(c(1),...,c(m),μ1,...,μK)=m1i=1mX(i)μc(i)2

       其中 μ c ( i ) { {\mu }_{ { {c}^{(i)}}}} μc(i)代表与 x ( i ) { {x}^{(i)}} x(i)最近的聚类中心点。
       我们的的优化目标便是找出使得代价函数最小的 c ( 1 ) c^{(1)} c(1), c ( 2 ) c^{(2)} c(2),…, c ( m ) c^{(m)} c(m) μ 1 μ^1 μ1,

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值