机器学习笔记（1）—监督学习和无监督学习

Magic--Y

已于 2022-11-07 08:17:53 修改

阅读量472

点赞数

分类专栏：机器学习文章标签：学习算法

于 2022-11-05 14:53:57 首次发布

本文链接：https://blog.csdn.net/ygy555/article/details/127682627

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

Day1:

写在前面
此系列博客是看的是2022年的吴恩达的机器学习，以下是相关的笔记，如有不对的地方，请大家指出！
监督学习
- 回归算法
- 分类算法
无监督学习
- 聚类算法
课后问题
总结

写在前面

始于2022年11月4日，本人双非硕士研一在读，cv方向，本科期间没有接触过，只有一点c的编程基础，现在每天除了上课就需要完成导师布置的每周任务，对cv的学习路径不太了解，打算先从机器学习学起，再逐步深入，争取早日发论文实习工作，加油！。

此系列博客是看的是2022年的吴恩达的机器学习，以下是相关的笔记，如有不对的地方，请大家指出！

监督学习

常见的监督学习是指，学习x到y或输入到输出映射的算法，关键特征是给学习算法提供学习的例子，对于给定的输入x，输出正确的答案y，在学习完这些输入输出后，再给他们一个全新的输入x，算法会得出相应的输出y

回归算法

在这里插入图片描述、
常见的例子是根据房子的大小预测房价，横轴是房子大小，纵轴是对应的价格
假如你的房子大小是750平方英尺，想知道房子的价格
不同的算法会有不同的解决方案：一种算法可以给你拟合出一条直线，另一种算法拟合出一条二次函数或二次多项式
第一种算法给出房子的价格大概是150k，用另一种算法进行拟合时，房子的价格大概是200k
小结：给算法一个数据集，包含了正确的答案（每个房子的正确的价格），算法的任务是根据现有的这些数据进行学习，学习输入输出，或x到y的映射，最后可以预测出无限多的数字产生更多的这样正确的答案
以上例子其实是个回归问题，回归是指我们的目标是预测一个连续值的输出

分类算法

在这里插入图片描述

检测乳腺癌，确定是否是恶性的（0良性，1恶性）
只有两个可能的输出或两个可能的类别，与试图预测任何数字的回归算法不同
也可以有两个以上的输出类别，比如良性、恶性1，恶性2等
分类算法预测类别，预测一个离散值的输出，类别可以是数值，也可以是非数值（比如预测一张图片是猫还是狗，肿瘤是良性还是恶性）

在这里插入图片描述
分类问题也可以使用多个输入值来预测输出
还是这个肿瘤问题，我们不仅知道肿瘤的大小，还知道患者的年龄
学习算法会找到一些边界，将良性和恶性肿瘤区分开来，根据肿瘤的大小和患者的年龄定位到了粉色点处，可以看出粉色点位于良性肿瘤区
在这里插入图片描述

总结：监督学习将输入x映射到输出y，算法从事先给定的正确答案中学习，主要的两种类型是回归和分类
回归：算法必须懂无限多的可能的输出数字中去预测
分类：算法只需要对输入输出进行预测，所有的输出都是离散的

无监督学习

聚类算法

在这里插入图片描述

左图是监督学习，每个样本都被标明了是良性还是恶性的肿瘤，对于监督学习，每个样本，我们都已经告知了正确答案
右图是无监督学习，数据与任何输出标签y都没有关联，我们只知道肿瘤大小和患者年龄，但是不知道哪个是良性的，哪个是恶性的，对于无监督学习，他们没有标签或都具有相同的标签，只是告诉了机器这里有个数据集
聚类算法：他们没有标签或都具有相同的标签，只是告诉了机器这里有个数据集，它将未标记的数据放在不同的簇中
在这里插入图片描述

比如谷歌新闻，在每篇文章中都提到了panda,twin以及zoo，采用聚类算法，找那天在互联网上数十万条新闻文章，找到相似次的文章并分组
在这里插入图片描述
比如根据每个人的DNA，算法将其分成不同类型的人，每种类型的人具有相似的特征
这是一种无监督算法，获取没有标签的数据，并将它们分到不同的簇中

在监督学习中，数据有输入x和输出标签y，在无监督学习中，数据只有输入x，没有输出标签y，算法必须找到数据中的一些共有的结构或某种模式，然后将他们分为不同的簇
当然也有其他的无监督学习算法，比如异常检测、降维算法

课后问题

在这里插入图片描述
监督学习、无监督学习、无监督学习、监督学习

总结

监督学习：就是给输入和输出，算法根据给的输入和输出，输出就是所谓的正确的答案，算法会拟合出一条符合该特性的线，当任意给定一个输入时，可以根据这条线预测出准确的输出，比如我们要区分猫和狗的照片，先找一定数量的猫和狗的图片，给它们打上标签猫和狗，让机器学习，最后我们随意给张图片，机器就能识别出是猫还是狗
回归模型：是对连续值进行预测
分类模型：预测离散类别
在分类模型中，只有少数可能的输出，而回归模型可以可以输出无限多可能的数字，
无监督学习：只给输入，算法会自动根据输出数据一些共有的特性，自动将它们分簇，分成不同的类，但是并不知道该类是什么。比如给一定数量猫和狗的照片，不告诉机器哪些照片是猫，哪些照片是狗，让机器自己学习，最后将猫分为一类，狗分为一类，但是机器并不知道分的这类是猫还是狗，只是将它们分成了两类而已。