回归(regression)
回归是监督学习的另一个重要问题。
回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归模型是表示从输入变量到输出变量之间映射的函数。
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数
据。
回归问题分为学习和预测两个过程。首先给定一个训练数据集:
这里, x i x_i xi是输入, y i y_i yi是输出
学习系统基于训练数据构建一个模型,即函数
Y
=
f
(
X
)
Y=f(X)
Y=f(X);对新的输入
x
N
+
1
x_{N+1}
xN+1,预测系统根据学习的模型
Y
=
f
(
X
)
Y=f(X)
Y=f(X)确定相应的输出
y
N
+
1
y_{N+1}
yN+1。
回归的分类
回归问题按照输入变量的个数,分为一元回归和多元回归;按照输入变量和输出变量
之间关系的类型即模型的类型,分为线性回归和非线性回归。
损失函数
回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最
小二乘法(least squares)求解。
应用
许多领域的任务都可以形式化为回归问题,比如简单介绍股价预测问题。具体地,将影响股价的信息视为自变量(输入的特征),而将股价视为因变量(输出的值)。将过去的数据作为训练数据,就可以学习一个回归模型,并对未来的股价进行预测。
可以看出这是一个困难的预测问题,因为影响股价的因素非常多,我们未必能判断到哪些信息(输入的特征)有用并能得到这些信息。