前言:复习复习复习
基本概念:
机器学习分为3种模式:监督学习、无监督学习、半监督学习。
简单介绍一下:
监督学习:监督学习我们所使用的数据集是带有标签的,打个比方我们使用手写体数据集,会给定0 - 9 个标签,分别代表九种类别信息,所以训练带有标签的学习就叫监督学习。我们数据集一般这样设定,我们会把数据分为三部分,分别是训练集、验证集、测试集,
1、训练集 (Training data):主要是用来训练、构建模型
2、验证集 (Validation data):主要是用来在模型训练阶段测试模型的好坏
3、测试集(Test data):主要是等训练好模型后用于评估模型的好坏
(这是标准情况下, 偷懒的话就只有训练集和测试集 )
无监督学习:无监督学习和监督学习恰恰相反,训练没有带有标签的数据就叫无监督学习。
大家对于分类应该不陌生就是把几种类别分开,而聚类(无监督学习)就如下图:
这是一个坐标系,我们不知道这8个圈分别属于那个分类它没有给定标签,那我们就给它做一个聚类用聚类给他分成2个类别,比如说上面的4个圈离的近,下面的4个圈离得近,我们将这8个圈分成两个类别,离得进行的就算是一类,这样的一个应用就是一个聚类。聚类是建立在无监督学习上的。
半监督学习:半监督学习是监督学习和无监督学习相结合的一种学习方式,主要用来解决少量带有标签和大量没有标签的数据进行训练和分类的问题。(半监督学习一般使用的比较少)
常见类别:
回归预测:
如上图,有很多红色的数据点,我们可以做一条回归线(蓝色线,不一定是线有可能是面 超平面)用于拟合数据的分布,根据历史数据预测未来数据的走势。当x = 1.5的时候我们可以通过回归线把y大概等于多少给预测出来。
分类:
分类的话,大家应该很好理解,就不过多介绍了。
聚类:
聚类上面我们也有简单介绍过,一般应用于没有带标签的数据,我们使用聚类对它进行分类上图是进行了3分类,聚类都是先分类后归类的,只有我们聚类完了才知道数据属于哪个类别。
简单案例:
回归案例:
如上图,是一份学区房的数据,假设我们有大量这样的数据,当我们得到一个房子面积和学区编号的新数据时,我们就可以通过已有的数据对房子价格进行预测。我们可以认为上面的数据是训练集,当我们训练完后使用一个新的数据再放到模型中进行测试,最后得到的结果就是我们的一个预测值
分类案例:
图中的 天气、温度、湿度、风力、周末都是我们的属性,我们可以根据这些属性得到一个结果是否运动,这个是否运动就是我们所讲的一个标签(我们给出)。当我们收集大量数据后新的一天到来了,我们可以先判断这一天的属性,当我们得到判断的结果后就可以给出是否适合运动。
聚类案例:
上图是每一个用户购买商品的记录,然后对他们进行一个分类(判断出重点客户 vip)这些数据本身是没有标签的(你也不知道谁是你的vip客户),我们可以通过以上属性对他做一个聚类(花费超过1万为vip客户)。我们可以通过聚类将花费金额超过1万的设为1类 ,没有超过1万的设为1类,这样你就可以得到自己的vip顾客信息。
这里总结一下它们所使用的数据类型;
回归:预测数据为连续型数值
分类:预测数据为类别型数据,并且已知类别
聚类:预测数据为类别型数据,但是不知道类别
当然,机器学习的应用并不止文中介绍的三种,后续详细介绍。