机器学习--监督学习以及无监督学习案例

甜饮铺。

已于 2022-03-02 15:59:28 修改

阅读量8.1k

点赞数 8

文章标签：机器学习

于 2022-03-02 15:46:12 首次发布

本文链接：https://blog.csdn.net/weixin_51687288/article/details/123231379

版权

监督学习以及无监督学习案例

课件以吴恩达机器学习案例进行分享作为加深印象
附上github链接: 吴恩达机器学习课程的教学文档.

监督学习

监督学习是指
- 我们给算法一个数据集，其中包含了正确答案，举个例子就是说，我们给他一个房价数据集，在数据集中的每一个样本，我们都给出正确的价格，即这个房子的实际卖价
- 如下图给出的图片表示我们能清晰的看到已经给出了确定的样本值
- 算法的目的就是给出更多的正确答案
  - 例如，为你朋友想要卖掉的这所新房子给出估价用更专业的术语来定义它也被成为"回归问题"
  - 这里的回归是指我们想要预测连续的数值输出，也就是价格，技术上而言，价格能够被圆整到分，因此价格实际上是一个离散值但通常我们认为房价是一个实数，标量或是连续值
  - 回归这个术语是指:我们设法预测连续值的属性
  - 分类这个术语是指:其目的是预测离散值输出

练习问题分类解析

回归问题
- 有很多同一件货物的库存，假设有几千件相同的货物要卖，你想预测，你在接下来的三个月内能，卖出去多少件
- 问题解答：
  - 假设有几千个货物，将它看成一个实数。即一个连续的值，即把我要卖的货物数量看成一个连续的值
分类问题
- 你有很多用户，你想要写一个软件，来检查每一个客户的账户，对于每个客户的账户，判断这个账户是否被入侵或破坏
- 问题解答：
  - 可能会设置我要预测的值为0，表示账户没有被入侵，设置值为1表示已经被入侵，用一个算法来计算这两个的离散值，因为只有少量的离散值，我把他作为一个分类的问题

无监督学习

无监督学习是指：
- 在无监督学习中，我们所用的数据和之前不同，看上去没有任何标签，都具有相同的标签或者都没有标签，我们得到一个数据集，我们不知道要拿它来干什么，也不知道每个数据点究竟是什么，我们只被告知这是一个数据集。
- 对于给定的数据集，无监督学习算法可能判定，该数据集包含两个不同的簇，无监督学习可以把这些数据分成两个不同的簇，这就是"聚类算法"
- 如下图给出的图片表示我们能清晰的看到数据集中有相同的标签
应用聚类算法案例一:
- 新闻网站:比如一个石油泄漏的事故报道，如果点击网页中的一个URL可能会得到不同的新闻，这里就是一则关于石油泄漏的新闻。如果点击另一个连接，又会出现不同的新闻，也会出现石油泄漏的新闻，所以这个新闻网站所做的就是，去搜索成千上万的新闻，然后自动地将他们分簇有关同一主题的新闻被显示在一起
- 其实聚类算法和无监督学习算法也可以用于许多其他的问题
应用聚类算法案例二:
- DNA：基本的思想就是定一组不同的个体，对于每个个体检测他们是否拥有某个特定的基因，也就是表达特定基因的表达程度
  这些颜色红绿灰等等，展现了不同个体，拥有特定基因的程度，我们要做就是运行一个聚类算法把不同的个体归入不同的类，或归为不同类型的人这就是无监督学习
  因为我们没有提前告知这个算法这些是第一类人，或是第二类人等等，相反我们只是告诉算法这儿有一堆数据，我不知道这些数据是什么，我不知道谁是什么类型，我甚至不知道都有哪些类型

练习问题分类解析

监督学习
- 给定被标记为垃圾邮件/非垃圾邮件的电子邮件，学习垃圾邮件过滤器。,因此我们将此视为一个监督学习问题
- 给定一个诊断为糖尿病或非糖尿病患者的数据集，学习将新患者分类为糖尿病或非糖尿病患者。
无监督学习:
- 新闻故事的例子，给定在网上找到的一组新闻文章，将它们分成关于同一故事的一组文章。(使用聚类算法来将相同文章聚合在一起)
- 给定一个客户数据数据库，自动发现细分市场，并将客户划分为不同的细分市场。