一、监督学习是什么?
监督学习指的是:我们给学习算法一个数据集,这个数据集由“正确答案”组成,然后运用学习算法,算出更多的正确答案。
二、回归
回归指的是:推测出一系列连续值属性。
三、分类
分类指的是:推测出输出值是离散的。
四、举例理解
假设你经营着一家公司,你想开发学习算法来处理这两个问题:
1.你有一大批同样的货物,想象一下,你有上千件一模一样的货物
等待出售,这时你想预测接下来的三个月能卖多少件?
2.你有许多客户,这时你想写一个软件来检验每一个用户的账户。
对于每一个账户,你要判断它们是否曾经被盗过?
那这两个问题,它们属于分类问题、还是回归问题?
问题一是一个回归问题。
因为你知道,如果我有数千件货物,我会把它看成一个实数,
一个连续的值。因此卖出的物品数,也是一个连续的值。
问题二是一个分类问题。因为我会把预测的值,用 0 来表示
账户未被盗,用 1 表示账户曾经被盗过。所以我们根据账号
是否被盗过,把它们定为0 或 1,然后用算法推测一个账号
是 0 还是 1,因为只有少数的离散值,所以我把它归为分类问题。
我们所提供的 “货物-对应卖出的物品数”、“ 账户-是否被盗过” 的数据信息都是真实的,它们都是由“正确答案”组成的数据集,而我们用已知的正确答案,推断出未知的正确答案的过程,就是监督学习。