有监督的机器学习即标签(label)已知的机器学习。在训练阶段,我们要事先告知机器,如果我输入样本x,你要输出对应的数据y。重复多次后,机器就会学到一个输入数据和输出数据之间的关系或规则。在测试阶段,在面对一个未知标签的测试样本x’时,机器会根据学到的关系或规则,判断输出最合理的y’。
有监督的机器学习分为分类(classification)和回归(Regression)两大问题,二者的区别在于标签是离散的还是连续的。
对于分类问题,比如预测一个水果的好坏,首先对足够多的水果的不同属性进行记录,如颜色、气味、体积、重量等,同时还要知道每个水果是好还是坏。将这些数据输入机器,让机器去学习水果的这些属性和水果好坏的关系。面对一个不知道是好还是坏的水果,我们将这个水果的各个属性输入机器,机器就会判断这个水果更可能是好还是坏。
对于回归问题,比如预测一个青少年的身高,首先记录足够多的 可能对青少年的身高有影响的因素的情况,如运动、饮食、睡眠、基因等,并记录其在成年后的身高。将数据输入机器,让机器去学习这些因素与身高的关系。面对一个即将步入青少年时期的孩子,我们输入这个孩子在上述因素的情况,机器就会预测这个孩子成年后最有可能的身高范围。
水果的好坏是离散的,青少年的身高是连续的,但离散和连续没有太大区别。我们可以对不同水果进行打分,最后的分数是连续的,再划定一个阈值,只有大于这个阈值的水果才算作是好水果,这样就把连续的水果分数转换为离散的水果质量。青少年的身高是连续的,但是我们可以划定几个阈值,如1.5米,1.6米,1.7米,1.8米,1.9米,