线性回归的基本要素
深度学习的基本要素包括模型、数据集、损失函数、优化函数。线性回归作为深度学习的基础模型,其基本要素也涵盖上述四方面。
- 模型
线性回归的模型是线性函数,通常可表示为如下形式:(向量形式)
y = W T X + B . \\y = \ W^{T}X+B\,. y= WTX+B.
以预测房价的案例为例,X={面积、房龄},则预测房价的表达式为:
p r i c e = ω 1 ∗ a r e a + ω 2 ∗ a g e + b . \\price = \omega^1*area+ \omega^2*age+b\,. price=ω1∗area+ω2∗age+b. - 数据集
数据集通常分为训练集(trainning dataset)和测试集(test dataset),训练集用于训练模型,使得通过数据拟合得到的模型能使预测的房屋价格和真实价格的误差最小。一个样本为一栋房屋,一个样本包含一栋房屋的所有特征,即面积和房龄,真实售出的价格称为该样本的标签。 - 损失函数
损失函数是用于评估预测值和真实值之间的误差的函数。常用的损失函数包括MSE、RMSE、MAE等。本例中采用均方误差函数,即:
l ( i ) ( w , b ) = 1 2 ( y ^ ( i ) − y ( i ) ) 2 ( 1 ) \ l^{(i)}(\mathbf{w}, b)=\frac{1}{2}\left(\hat{y}^{(i)}-y^{(i)}\right)^{2} (1) l(i)(w,b)=21(y^(i)−y(i))2(1)
L ( w , b ) = 1 n ∑ i = 1 n l ( i ) ( w , b ) = 1 n ∑ i = 1 n 1 2 ( w ⊤ x ( i ) + b − y ( i ) ) 2 ( 2 ) \ L(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} l^{(i)}(\mathbf{w}, b)=\frac{1}{n} \sum_{i=1}^{n} \frac{1}{2}\left(\mathbf{w}^{\top} \mathbf{x}^{(i)}+b-y^{(i)}\right)^{2} (2) L(w,b)=n1i=1∑nl(i)(w,b)=n1i=1∑n21(w⊤x(i)+b−y(i))2(2)
上述(1)式为单样本的误差,(2)式为批量误差和。 - 优化函数
优化函数是指对模型的参数进行优化,使其尽可能接近真实值,优化的目标在于使损失函数最小。优化方法包括好几种,其中运用最广泛的是随机梯度下降法(stochastic gradient descent, SGD)。该方法的原理在于:**首先随机选取模型参数的初始值,接下来对参数进行多次迭代,每次迭代的结果都使得损失函数值降低。随机的思想体现在每次迭代过程的训练样本是随机均匀采样的固定数目组成的小批量,根据该数据样本的平均损失有关模型参数的梯度,与预先设定的整数(学习率)的乘积作为模型参数在本次迭代中的减少量。**一次迭代后的模型参数为迭代前的模型参数减去减少 ( w , b ) ← ( w , b ) − η ∣ B ∣ ∑ i ∈ B ∂ ( w , b ) l ( i ) ( w , b ) ( 3 ) (\mathbf{w}, b) \leftarrow(\mathbf{w}, b)-\frac{\eta}{|\mathcal{B}|} \sum_{i \in \mathcal{B}} \partial_{(\mathbf{w}, b)} l^{(i)}(\mathbf{w}, b) (3) (w,b)←(w,b)−∣B∣ηi∈B∑∂(w,b)l(i)(w,b)(3)
注:[1]上述资料参考于伯宇学习平台《动手学深度学习》