线性回归
回归是指一类为一个或多个自变量与因变量之间关系建模的方法。在自然科学和社会科学领域,回归通常用来表示输入和输出之间的关系。
在机器学习领域中的大多数任务通常都与预测有关。 当我们想预测一个数值时,就会涉及到回归问题。常见的例子包括:预测股价、预测房价等。但不是所有的预测都是回归问题。后续还我们可能还会写一些解决分类问题的文章,预测一组数据性于数据类型中的某一种。
线性回归的元素
线性回归是一种简单的回归工具。线性回归基于几个简单的假设:
- 假设自变量 X X X 和因变量 y y y之间的关系是线性关系。既 y y y可以表示为 X X X的加权和,这里通常允许包含观测的一些噪音。
- 假设在任何噪音都正常的前提下,噪声遵循正态分布。
为了简单解释线性回归,我们可以拿可以拿一个入门级示例,预测房价:我们假设房屋的销售价格与房屋的面积和房龄有关。
为了开发这一个预测房价的模型,我们需要收集一个真实的房屋销售数据集。这个数据集包含房屋的销售价格、面积和房龄。
线性回归模型
在我们假设房屋的售价可以由房屋的面积和房龄加权和表示的话,那我们可以得到下面的公式:
y = a ∗ a r e a + b ∗ a g e + c y = a*area + b*age +c y=a∗area+b∗age+c
在上面公式中, a a a和 b b b称为权重, c c c称为偏移量。为了使我们模型能力表达的更强,在这里,即使房屋的面积和房龄均为0时,我们依然需要设置偏移量。权重 a a a和 b b b决定每一个特征值(面积和房龄)对预测值(房价)的影响。
我们将面积和房龄放到一个特征集合