1、什么是回归
有监督机器学习中,回归表示对于输入的样本(sample)得到一个连续的y值。分类则得到一个离散的y值。举个简单的例子,一个女生示例(instance)他有3个特征,分别是身高(x1),脸型(x2),肤色(x3)。现在根据这三个特征来判断这个女孩的颜值得分Y。显然这是个连续的值,那么现在做的是回归问题。如果是判断这个女孩是好看(-1)、中等(0)、不好看(1),这是个离散的值,此时就是分类问题了。
2、线性回归的概念
谈到线性回归就要说到线性模型,也就是大家所熟悉的
这里x表示示例,w表示权重。如何理解这个公式呢?还是以美女为例了。
现在x = (x1, x2, x3)那么
俗话说一白遮百丑,一胖毁所有。通过这个式子可以很容易看出脸型对于女生的颜值是不是占的权重最大啊,其次的是肤色、身高。
那么我们线性回归要做的就是根据已有的数据集(假设现在有n个样本个数,对应例子中的n个女生)得到一个线性模型,使他的输出尽可能的预测实际值。
现在问题就转化为了如何确定权重参数w和b来使得预测