[machineLearning]非监督学习unsupervised learning

最新推荐文章于 2024-05-02 21:17:26 发布

ChatMed

最新推荐文章于 2024-05-02 21:17:26 发布

阅读量594

点赞数

分类专栏：机器学习文章标签：学习深度学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_62697030/article/details/132720230

版权

机器学习专栏收录该内容

14 篇文章 1 订阅

订阅专栏

1.什么是非监督学习

常见的神经网络是一种监督学习,监督学习的主要特征即为根据输入来对输出进行预测,最终会得到一个输出数值.而非监督学习的目的不在于输出,而是在于对读入的数据进行归类,选取特征,打标签,通过对于数据结构的分析来完成这些操作, 很少有最后的输出操作.

从训练数据的角度来说也是有所区别:监督学习的训练数据为(x,y), 即同时具有输入和输出数值,根据这种输入和输出来判断训练的结果是否正确.

但是非监督学习的数据只有输入数据(x),或者说非监督学习就是要处理这些数据,然后随着新的数据加入再不断进行修改,完成对数据特征提取和区分的要求.

把相同的数据进行归类,这就是非监督学习所作的事情.

下面将介绍两种常用的非监督学习算法:聚类分析和异常检测

本文中需要一定的概率论/高中概率的前置知识

2.聚类算法 k-means

(1)什么是聚类分析

俺举个简单点例子,比如说我们有两个维度的特征值x1 x2,这个时候我们根据特征值把数据点描绘在图片上.

可以很明显地看到,因为各自的特征不同和相似,我们最终可以把原本的数据集合分成两个集群聚类(cluster),我们的目的就是通过算法找到这两个聚类究竟有多少成员,有哪些成员

其中一种古老但是经典的早期算法K-means可以用来解决这个问题

(2)K-means算法

在具体解释这个算法之前,要说明一个概念:集群质心 cluster controids,集群质心代表这些集群的一个中心点.

1.Kmeans的算法第一步就是按照人为的需求,随机分配多个集群质心

2.然后将每个点分配给距离自己最近的质心,组成一个集群

3.集群中的点通过特征值平均,算出一个中心点位置,然后把这个集群的质心移动到这个位置

4.重复 2 3 两个步骤,直到最后质心的距离不发生改变,即可视为集群操作完成

下面将将会使用图片来进行说明,我们一共有三十个数据点,按照特征值划分开

随机分配两个质心(这里假设我们需要的是划分出两个集群,然后接下来是对每个数据点进行归类,将其分配给某个群(严格来说是和距离自己最近的质心打上同样的标记)

将多个数据点分配到具体的集群以后,这个时候暂时就先不用到集群质心cluster controids了

对于每一个集群,我们通过各个分量之间计算平均点的方式,计算出这个集群的集群质心应该在什么位置上

然后将集群质心移动到对应的点上

重复以上两个步骤,最终实现集群质心的固定,到这种程度就可以认为规定数目的集群已经按照要求划分完成

(3)聚类算法的优化

忘记说明一点,kmeans算法的初始化,随机分配集群质心,一般是直接在已有的数据点中生成,而不是真的凭空捏造一个(hhhh).但是不同的随机选取结果,最终可能会导致不同的集群划分结果,甚至可能造成unconverge不收敛现象.

类似监督学习中的代价函数,这里我们同样是存在代价函数,只不过计算方法有一点点区别

Kmeans的代价函数如下

$J=\frac{1}{m}\sum \left \| x^{i}-\mu _{c^{i}}^{} \right \|^2$

$c^{i}$ :代表的是第i个数据点所在的群

$\mu$ :代表的是某个群的集群质心

所以这个公式的解释就是:所有点到他们各自所在群的集群质心的距离的二范数(空间距离)的平均值

在比较不同集群算法结果的时候,计算代价函数是比较合理的比较方法

而聚类算法的优化,也是期望代价函数能够降到最低

另外要说的是,不合理无法归一的情况是客观存在的,结局办法有很多,比如重新进行随机点的选取,但是kmeans毕竟还是比较早期的算法.可以选用其他算法或者其他改进模式,这里就不进行赘述了

3.异常检测算法 anomal detect

异常检测算法通常用于一些特殊的情况, 比如一些物体的识别,比如水果,可以按照重量,色泽等等特征来做区分,或者珍珠可以按照半径,色泽等等方式来判断一个珍珠是好是坏.正所谓幸福千篇一律,苦难各有不幸.

我们所遵从的原则是"群体原则",即为服从大多数,大多数具有相同特征的人被称之为正常.

所以因为这样,我们要使用高斯分布这一特性

这个玩意我觉得大多数人应该在高中或者是大学的概率论课程中接触过,在异常检测算法之中,我们会对每一个分量进行高斯分布计算

假设某一批数据有很多特征值

$x_{1}^{}=\left ( x_{1}^{(1)},x_{1}^{(2)},....,x_{1}^{(n)} \right )$

$x_{2}^{}=\left ( x_{2}^{(1)},x_{2}^{(2)},....,x_{2}^{(n)} \right )$

.............................................................

$x_{m}^{}=\left ( x_{m}^{(1)},x_{m}^{(2)},....,x_{m}^{(n)} \right )$

对于每一个分量,例如这个矩阵的第一列,即每个样本的第一个特征值,对于这些数据我们需要计算出方差和平均值,然后就能构建出一个分量的高斯式子

$P(x1)=gauss(x1,\mu 1,\sigma ^{2}1)$

然后对于整体的输入数据来说,某个数据xi想要判断是不是"异常",只需要计算这个向量的高斯数值

$P(\chi )=P(x1 )*P(x2 )*.....*P(x3 )$ (注意一个很有趣的地方,就算这些特征值可能不是独立的,我们这个式子仍然是成立的)

然后通过这样子,判断该数据向量的高斯分布数值是否大于某个阀值,即可直到是不是属于"大多数"

$P(\chi )>=\varepsilon ?$

(2)注意事项

1.在训练的时候,训练数据必须全是正常的数据,测试集合中需要包含一些

2.有些特征可能并不是高斯分布,需要我们对数据进行适当的方所处理

3.不是二维分布不是二维聚类!二位聚类是根据两种不同的特征值划分出两种截然不同的集群,两个群中的元素则都有各自相同的部分.

而异常检测不一样,异常检测做到的是区分"大多数"和"异端"

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[machineLearning]非监督学习unsupervised learning

常见的神经网络是一种监督学习,监督学习的主要特征即为根据输入来对输出进行,最终会得到一个输出数值.而非监督学习的目的不在于输出,而是在于对读入的数据进行归类,选取特征,打标签,通过对于数据结构的分析来完成这些操作, 很少有最后的输出操作.从训练数据的角度来说也是有所区别:监督学习的训练数据为(x,y), 即同时具有输入和输出数值,根据这种输入和输出来判断训练的结果是否正确.
复制链接

扫一扫

专栏目录

博客等级

码龄3年

118
原创

154
点赞

426
收藏

363
粉丝

关注

私信

热门文章

分类专栏

前端 15篇
计算机网络 5篇
电子榨菜 1篇
操作系统课设 6篇
机器学习 14篇
深度学习 4篇
算法 6篇
后端 3篇
操作系统 5篇
实验 3篇
数据库 1篇
数据结构 7篇
刷题 5篇
java预备知识 4篇
网页 1篇
s 9篇
cpp 3篇
洛谷刷题 1篇

最新评论

山东大学软件学院操作系统实验1(关于环境)
雪球儿141: 哥哥厉害~~
[山东大学操作系统课程设计]实验四+实验五
珊夏: 所以请问 print添加的默认的参数怎么修改呢
[山东大学操作系统课程设计]实验三
ChatMed: 谢谢同学的指正啦，我细想了一下确实是我自己考虑的太简单了，有相当长的一段时间没有接触并发编程了，因此有些想当然。跑了一遍当时结果没问题就没多想，确实很不严谨。很感谢同学的指点了，我考完试会尽快修改这个错误的。
[山东大学操作系统课程设计]实验三
是年轮蛋糕: 博主您好，我觉得3的实现并没有真正解决问题，假设有这样一种情况，N屏障设置的N为10，第九个线程到达屏障，将count的值设为了9，这个时候线程切换，第10个线程到达，将count的值设置为了10，之后第九个和第十个到达的线程都会在if count == 10的判断中判断自己为最后一个到达的线程，从而输出多次thread is the last。我觉得正确的方法应该是在count修改前获取的锁，延迟到count与n比较结束后再释放
[山东大学操作系统课程设计]实验三
Lion Long: 点赞博主文章，大佬牛批，写的很详细，期待你也指点我一番！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。