线性回归 linear regression
通过线性模型逼近数据点
y
^
=
w
x
+
b
\hat y=wx+b
y^=wx+b
如何做到这一点呢?
有一堆数据符合一个原有函数,通过一个假设的模型函数去逼近该原有函数。如果二者之间的差值足够小,则认为假设的函数是符合原有函数的特点的。
在这里就通过引入损失函数来衡量二者之间的差值。
L
o
s
s
=
1
2
n
∑
i
=
1
n
(
y
^
i
−
y
i
)
2
Loss=\frac{1}{2n} \sum_{i=1}^{n}(\hat y_i - y_i)^2
Loss=2n1i=1∑n(y^i−yi)2
通过使Loss函数最小化求
w
w
w 、
b
b
b的最优值。
这个形式就是大名鼎鼎的最小二乘法。
这种形式有两种方法求最优值
-
随机梯度下降法 SGD stochastic gradient descent
过程像极了下山,在每一点上求导,每一步通过切线指向的方向前进一步,一直到Loss函数不再减小为止,其实是减小的值小于一定的阈值,否则就一直迭代。 -
正规化方程法
w ∗ = ( X T X ) − 1 X T y w*=(X^TX)^{-1}X^Ty w∗=(XTX)−1XTy
找到最优值就寻到了最佳的逼近直线。
到这里线性回归还没和神经网络联系起来。
后来神经网络模型提出来后,一个神经元的工作原理和线性回归有相似之处。通过w和b将输入转化为输出。