线性回归
线性回归就是一种通过属性的线性组合,来进行预测的线性模型。
目的是找到一条直线,一个平面,甚至是更高维度的超平面,使得预测值与真实值之间的误差最小化
一、线性回归的表达形式
f ( x ) = w 1 x 1 + w 2 x 2 + ⋯ + w d x d + b f(x)= w_ {1} x_ {1} + w_ {2} x_ {2} + \cdots + w_ {d} x_ {d} +b f(x)=w1x1+w2x2+⋯+wdxd+b
其中x=( x 1 x_1 x1, x 2 x_2 x2,…, x n x_n xn), x i x_i xi 代表着样本 x x x 在第 i i i 个属性的取值
举一个西瓜书 上面的例子:
f 好瓜 ( x ) = 0.2 ∗ x 色泽 + 0.5 ∗ x 根蒂 + 0.3 ∗ x 敲声 + 1 f_{\text{好瓜}}\left( x \right) =0.2*x_{\text{色泽}}+0.5*x_{\text{根蒂}}+0.3*x_{\text{敲声}}+1 f好瓜(x)=0.2∗x色泽+0.5∗x根蒂+0.3∗x敲声+1,
属性前面的权重系数越大,说明对模型就越重要。
二、线性回归模型的评价
给定一组数据集,如何去评价我们的模型好不好呢?
要划分训练集,验证集和测试集,用训练集和验证集来训练模型用测试集评价模型效果。
我们的线性回归目的就是找到一个线性模型使得预测值与真实值之间的误差最小化,现在已经有了我们已经构建出了线性模型,下面是几种评价的指标。
-
1. M S E MSE MSE
-
2. M A E MAE MAE
-
3. R M S E RMSE RMSE
-
4. R 2 系数 R^2系数 R2系数
三、线性回归模型的求解
1.当d=1时,即每个样本都只有一个特征
线性回归模型为:
f
(
x
i
)
=
ω
x
i
+
b
f( x_ {i} )= \omega x_ {i} +b
f(xi)=ωxi+b
此时模型仅有两个参数
w
w
w和
b
b
b。
模型学习的目标就是找到合适的w和b使得模型的预测值和实际值之间的差距最小即最小化损失函数
(
w
∗
,
b
∗
)
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
f
(
x
i
)
−
y
i
)
2
=
arg
min
(
w
,
b
)
∑
i
=
1
m
(
y
i
−
w
x
i
−
b
)
2
( w^ {*} , b^ {*} )=\text{arg}\min _{\left( w,b \right)}\sum_{i=1}^m{\left( f\left( x_i \right) -y_i \right) ^2}=\text{arg}\min _{\left( w,b \right)}\sum_{i=1}^m{\left( y_i-wx_i-b \right)}^2
(w∗,b∗)=arg(w,b)mini=1∑m(f(xi)−yi)2=arg(w,b)mini=1∑m(yi−wxi−b)2
分别对w和b求导得到:
∂
E
(
w
,
b
)
∂
w
=
2
(
w
∑
i
=
1
m
x
i
2
−
∑
i
=
1
m
(
y
i
−
b
)
x
i
)
∂
E
(
w
,
b
)
∂
b
=
2
(
m
b
−
∑
i
=
1
m
(
y
i
−
w
x
i
)
)
\frac{\partial E\left( w,b \right)}{\partial w} =2\left( w\sum_{i=1}^m{x_i^2-\sum_{i=1}^m{\left( y_i-b \right) x_i}} \right)\\ \frac{\partial E\left( w,b \right)}{\partial b}=2\left( mb-\sum_{i=1}^m{\left( y_i-wx_i \right)} \right)
∂w∂E(w,b)=2(wi=1∑mxi2−i=1∑m(yi−b)xi)∂b∂E(w,b)=2(mb−i=1∑m(yi−wxi))
得到
w
=
∑
i
=
1
m
y
i
(
x
i
−
x
ˉ
)
∑
i
=
1
m
x
i
2
−
1
m
(
∑
i
=
1
m
x
i
)
2
b
=
1
m
∑
i
=
1
m
(
y
i
−
w
x
i
)
w=\frac{\sum_{i=1}^m{y_i\left( x_i-\bar{x} \right)}}{\sum_{i=1}^m{x_i^2-\frac{1}{m}\left( \sum_{i=1}^m{x_i} \right) ^2}}\\ \\ b=\frac{1}{m}\sum_{i=1}^m{\left( y_i-wx_i \right)}
w=∑i=1mxi2−m1(∑i=1mxi)2∑i=1myi(xi−xˉ)b=m1i=1∑m(yi−wxi)
其中
x
ˉ
=
1
m
∑
i
=
1
m
(
x
i
)
\bar{x}=\frac{1}{m}\sum_{i=1}^m{\left( x_i \right)}
xˉ=m1∑i=1m(xi)。
2.当d>1时,每一个样本有d>1个特征
给定数据集
D
=
(
(
x
1
,
y
1
)
,
(
x
2
,
y
2
)
,
⋯
,
(
x
m
,
y
m
)
)
D=(( x_ {1} , y_ {1} ),( x_ {2} , y_ {2} ), \cdots ,( x_ {m} , y_ {m} ))
D=((x1,y1),(x2,y2),⋯,(xm,ym))
一共m个样本,每一个
x
i
=
(
x
i
1
,
x
i
2
,
.
.
.
x
i
d
)
x_i=\left( x_{i1},x_{i2},...x_{id} \right)
xi=(xi1,xi2,...xid) ,每一个样本都有d维特征
线性回归模型为:
f
(
x
)
=
w
1
x
1
+
w
2
x
2
+
⋯
+
w
d
x
d
+
b
f(x)= w_ {1} x_ {1} + w_ {2} x_ {2} + \cdots + w_ {d} x_ {d} +b
f(x)=w1x1+w2x2+⋯+wdxd+b
改写为向量的形式:
f
(
x
)
=
w
T
x
+
b
其中
w
=
(
w
1
,
w
2
,
⋯
,
w
d
)
f(x)= w^ {T} x+b\\ \\ 其中 w=(w_1,w_2,\cdots,w_d) \\
f(x)=wTx+b其中w=(w1,w2,⋯,wd)
若将向量x记为
x
⃗
=
(
x
1
,
x
2
,
⋯
,
x
d
,
1
)
\vec{x}=(x_1,x_2,\cdots,x_d,1)
x=(x1,x2,⋯,xd,1)
将模型参数w改写为
w
⃗
=
(
w
1
,
w
2
,
⋅
⋅
⋅
,
w
d
,
b
)
\vec{w}=\left( w_1,w_2,\cdot \cdot \cdot ,w_d,b \right)
w=(w1,w2,⋅⋅⋅,wd,b)
则多元线性回归模型:
f
(
x
)
=
w
T
x
f(x)= w^ {T} x
f(x)=wTx
令数据样本的标签为
y
=
(
y
1
,
y
2
,
⋅
⋅
⋅
,
y
m
)
y=\left( y_1,y_2,\cdot \cdot \cdot ,y_m \right)
y=(y1,y2,⋅⋅⋅,ym)
则多元线性回归的损失函数为:
J
(
ω
)
=
1
2
(
ω
T
x
−
y
)
2
=
1
2
(
ω
T
x
−
y
)
(
ω
T
x
−
y
)
T
J( \omega )= \frac {1}{2} (\omega ^ {T}x-y)^ {2}= \frac {1}{2} ( \omega ^ {T} x-y)( \omega ^ {T} x-y)^T
J(ω)=21(ωTx−y)2=21(ωTx−y)(ωTx−y)T
此时求解参数有两种方法,第一种最小二乘法,第二种梯度下降的方法。
最小二乘
通过最小化数据点到模型的残差平方和来确定模型的参数,通过对目标函数求导数,求得最优的w和b
∂
J
(
w
)
∂
w
=
1
2
∂
∂
w
(
ω
T
x
−
y
)
(
ω
T
x
−
y
)
T
=
1
2
∂
∂
w
(
w
T
x
x
T
w
−
y
w
T
x
−
w
T
x
y
T
+
y
y
T
)
=
1
2
(
2
x
x
T
w
−
2
x
y
T
+
0
)
=
x
x
T
w
−
x
y
T
(1)
\frac{\partial J\left( w \right)}{\partial w}=\frac{1}{2}\frac{\partial}{\partial w}( \omega ^ {T} x-y) (\omega ^ {T}x-y)^ {T}\\ \hspace{10em}=\frac{1}{2}\frac{\partial}{\partial w}\left( w^Txx^Tw-yw^Tx-w^Txy^T+yy^T \right)\\ \hspace{2em}=\frac{1}{2}\left( 2xx^Tw-2xy^T+0 \right) \\ \hspace{-2em}=xx^Tw-xy^T \tag{1}
∂w∂J(w)=21∂w∂(ωTx−y)(ωTx−y)T=21∂w∂(wTxxTw−ywTx−wTxyT+yyT)=21(2xxTw−2xyT+0)=xxTw−xyT(1)
令上式等于0得:
w
∗
=
(
x
x
T
)
−
1
x
y
T
w^*=\left( xx^T \right) ^{-1}xy^T
w∗=(xxT)−1xyT
w求解出来之后,带入损失函数即可求出来b。
然而当xx^T不满足满秩或半正定矩阵的时候,它的逆不存在,存在多个最优解。
梯度下降
梯度下降法,是一种基于搜索的最优化方法。在求解损失函数的最小值时,可以通过梯度下降法来一步步的迭代求解,得到最小化的损失函数和模型参数值。
梯度下降的步骤:
-
初始化模型的参数
-
给出模型损失函数,计算当前的损失
-
用梯度下降公式求解更新模型的参数
w = w − α ∂ ( J ( w ) ) ∂ w α 为学习率 w=w-\alpha \frac{\partial \left( J\left( w \right) \right)}{\partial w}\\ \alpha 为学习率 w=w−α∂w∂(J(w))α为学习率 -
再次计算更新参数之后的损失,如果损失相较于上次几乎 不变,那就停止迭代更新。否则重复2,3步骤。
有几种梯度下降算法。
1.随机梯度下降
梯度下降的每一步都只用到了一个训练样本,在每一次计算之后便更新参数,而不需要首先将所有的训练集求和
2.批量梯度下降:
梯度下降的每一步都用到了所有的训练样本
3.小批量梯度下降
梯度下降的每一步都用到了一部分训练样本
随机梯度下降推导
图中圈绿色框的部分应该是 ∑ j = 0 n w j x j ( i ) \sum_{j=0}^n{w_j}x_j^{\left( i \right)} ∑j=0nwjxj(i)
每次计算之后便更新参数,而不需要首先将所以的训练集求和
w
j
=
w
j
−
α
(
f
(
x
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
w_j=w_j-\alpha \left( f\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) x_j^{\left( i \right)}
wj=wj−α(f(x(i))−y(i))xj(i)
同步更新
w
j
,
(
j
=
0
,
1
,
⋯
,
n
)
w_j,(j=0,1,\cdots,n)
wj,(j=0,1,⋯,n).
批量梯度下降
w
j
=
w
j
−
α
1
m
∑
i
=
1
m
(
f
(
x
(
i
)
)
−
y
(
i
)
)
x
j
(
i
)
w_j=w_j-\alpha \frac{1}{m}\sum_{i=1}^m{\left( f\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right)}x_{j}^{\left( i \right)}
wj=wj−αm1i=1∑m(f(x(i))−y(i))xj(i)
小批量梯度下降
w
j
=
w
j
−
α
1
b
∑
k
=
1
i
+
b
−
1
(
f
(
x
(
k
)
)
−
y
(
k
)
)
x
j
(
k
)
w_j=w_j-\alpha \frac{1}{b}\sum_{k=1}^{i+b-1}{\left( f\left( x^{\left( k \right)} \right) -y^{\left( k \right)} \right)}x_{j}^{\left( k \right)}
wj=wj−αb1k=1∑i+b−1(f(x(k))−y(k))xj(k)
梯度下降的每一步中,用到了一定批量的训练样本。每计算常数b次训练实例,便更新一次参数w。
各自的优缺点
批量梯度下降:
批量梯度下降算法在每一次迭代时都需要使用全部的样本数据来计算梯度,并根据该梯度来更新模型参数,这使得批量处理算法因为需要对整个数据集进行运算而非常缓慢,并且不利于大规模数据集的训练。然而,批量优化算法具有好的收敛性和稳定性。
小批量梯度下降:
相较于标准的梯度下降,小批量梯度下降具有以下两点优势:
- 计算速度更快:由于小批量数据集的规模相比整个训练集要小很多,因此每一次迭代所需要处理的训练样本的量也会大大减少,从而大大提升算法的求解效率。
- 网络泛化能力更强:通过只使用部分数据对模型参数进行更新,小批量梯度下降可以更好地避免过拟合现象,从而提高了模型在未见过的数据上的表现能力。
总之,小批量梯度下降是在速度和精度之间寻求平衡的优化方法,可以有效地应用于各种类型的机器学习模型。
随机梯度下降:
相较于批量梯度下降,在计算梯度时不需要遍历整个训练集,因此随机梯度下降可以更快地收敛。另外,随机梯度下降的噪声可以帮助跳出局部最优解,但也可能会导致震荡问题。
最小二乘法与梯度下降求解参数两者的区别和联系
联系在于它们都可以用来求解线性回归模型的参数。
区别在于最小二乘法是一种解析解方法,通过求解目标函数的导数,可以得到模型参数的解析解。最小二乘法的优点是计算简单,而且对于符合线性模型假设的数据,具有较好的拟合效果。但是,最小二乘法的缺点是对于非线性模型的拟合效果不佳,而且对于离群点的敏感性较高。
梯度下降法是一种迭代优化方法,通过不断更新模型参数,使得目标函数逐渐趋近于最小值。梯度下降法的优点是可以应用于各种类型的模型,而且对于非线性模型和大规模数据集的拟合效果较好。但是,梯度下降法的缺点是需要选择合适的学习率和迭代次数,而且对于初始值的选择较为敏感。
四、对数据进行标准化/归一化
为什么要进行标准化或者是归一化呢?
线性回归模型中需要对数据进行标准化和归一化主要是为了保证模型的稳定性和收敛速度,而且可以使得数据具有相同的尺度和均值避免因为数据的缩放比例不同而导致模型的参数不同。
具体来说,标准化是将数据转化成均值为0,方差为1的标准正态分布。而归一化则是将数据缩放到0到1之间的范围内。
五、极大似估计理解线性回归
极大似然估计是机器学习中最常用的参数估计方法之一。它的基本思想是,在给定一组观测数据的情况下,通过寻找最有可能产生这些数据的参数值,以此来估计未知参数。与最小二乘法不同的是,最小二乘法比较直观,很容易解释,但不具有普遍意义,对于更多其他机器学习问题,比如二分类和多分类问题,最小二乘法就难以派上用场了,而最大似然估计更具有普遍意义。
(此处需要有一定概率论的基础)
之前的文章提到,线性回归的误差项是预测值与真实值之间的差异,如下面公式所示。它可能是些随机噪音,也可能是线性回归模型没考虑到的一些其他影响因素。
y
i
=
ϵ
i
+
∑
j
=
1
n
w
j
x
i
j
=
ϵ
i
+
w
T
x
i
(2)
y_ {i} = \epsilon _ {i} + \sum _ {j=1}^ {n} w_ {j} x_ {ij} = \epsilon _ {i} + w^ {T} x_ {i}\tag{2}
yi=ϵi+j=1∑nwjxij=ϵi+wTxi(2)
线性回归的一大假设是:误差服从均值为0的正态分布,且多个观测数据之间互不影响,相互独立。正态分布(高斯分布)的概率密度公式如下面公式,根据正态分布的公式,可以得到
ϵ
\epsilon
ϵ的概率密度。
假设
x
x
x服从正态分布,它的均值为
μ
\mu
μ,方差为
σ
\sigma
σ,它的概率密度公式如下。公式左侧的
P
(
x
;
μ
,
σ
)
P(x; \mu , \sigma )
P(x;μ,σ)表示x是随机变量,;分号强调
μ
\mu
μ ,
σ
\sigma
σ不是随机变量,而是这个概率密度函数的参数。条件概率函数中使用的|竖线有明确的意义,
p
(
y
∣
x
)
p(y|x)
p(y∣x)表示给定
x
x
x(Given x),
y
y
y发生的概率(Probability of y)。
P
(
x
;
μ
,
σ
)
=
1
2
π
σ
2
e
x
p
(
−
(
x
−
μ
)
2
2
σ
2
)
P(x; \mu , \sigma )= \frac {1}{\sqrt {2\pi \sigma ^ {2}}} exp(- \frac {(x-\mu )^ {2}}{2\sigma ^ {2}} )
P(x;μ,σ)=2πσ21exp(−2σ2(x−μ)2)
既然误差项服从正态分布,那么:
P
(
ϵ
i
)
=
1
2
π
σ
2
e
x
p
(
−
(
ϵ
i
)
2
2
σ
2
)
P( \epsilon _ {i} )= \frac {1}{\sqrt {2\pi \sigma ^ {2}}} exp(- \frac {(\epsilon_i)^ {2}}{2\sigma ^ {2}} )
P(ϵi)=2πσ21exp(−2σ2(ϵi)2)
所以根据公式(2):
P
(
y
i
∣
x
i
;
w
)
=
1
2
π
σ
2
e
x
p
(
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
P( y_ {i} |x_ {i} ;w)= \frac {1}{\sqrt {2\pi \sigma ^ {2}}} exp(- \frac {(y_ {i}-w^ {T}x_ {i})^ {2}}{2\sigma ^ {2}} )
P(yi∣xi;w)=2πσ21exp(−2σ2(yi−wTxi)2)
上式表示给定
x
i
x_i
xi,
y
i
y_i
yi的概率分布。
w
w
w并不是随机变量,而是一个参数,所以用;分号隔开。或者说
x
i
x_i
xi和
w
w
w不是同一类变量,需要分开单独理解。p(
y
i
y_i
yi|
x
i
x_i
xi,
w
w
w)则有完全不同的意义,表示
x
i
x_i
xi和
w
w
w同时发生时,
y
i
y_i
yi的概率分布。
前文提到,似然函数是所观察到的各个样本发生的概率的乘积。一组样本有m个观测数据,其中单个观测数据发生的概率为刚刚得到的公式,m个观测数据的乘积如下所示。
L
(
w
)
=
L
(
w
;
X
,
y
)
=
∏
i
=
1
m
P
(
y
i
∣
x
i
;
w
)
L(w)=L(w;X,y)=\prod_{i=1}^m{P( y_ {i} |x_ {i} ;w)}
L(w)=L(w;X,y)=i=1∏mP(yi∣xi;w)
最终似然函数可以表示为:
L
(
w
)
=
∏
i
=
1
m
1
2
π
σ
2
e
x
p
(
−
(
y
i
−
w
T
x
i
)
2
2
σ
2
)
L(w)= \prod_{i=1}^m\frac {1} {\sqrt {2\pi \sigma ^ {2}} }exp(- \frac {(y_ {i}-w^ {T}x_ {i})^ {2}}{2\sigma ^ {2}} )
L(w)=i=1∏m2πσ21exp(−2σ2(yi−wTxi)2)
其中和
x
i
x_i
xi和
y
i
y_i
yi都是观测到的真实数据,是已知的,
w
w
w是需要去求解的模型参数。
给定一组观测数据 x x x和 y y y,如何选择参数 w w w来使模型达到最优的效果?最大似然估计法告诉我们应该选择一个 w w w,使得似然函数 L L L最大。 L L L中的乘积符号和 e x p exp exp运算看起来就非常复杂,直接用 L L L来计算十分不太方便,于是统计学家在原来的似然函数基础上,取了 l o g log log对数。 l o g log log的一些性质能大大化简计算复杂程度,且对原来的似然函数增加 l o g log log对数并不影响参数 ω ω ω的最优值。通常使用花体的 ℓ ℓ ℓ来表示损失函数的对数似然函数。
由于我们想要最大化 ℓ ℓ ℓ(w),而且标准差 σ \sigma σ并不影响w取何值时 ,函数达最大值,在上面的公式中我们只需要最小化 ∑ i = 1 m ( y i − w T x i ) 2 \sum_{i=1}^m{\left( y_i-w^Tx_i \right) ^2} ∑i=1m(yi−wTxi)2即可,我们会发现这与最小二乘法所优化的损失函数几乎一样,都是预测值-真实值的平方。
接下来对公式参数求解,可以求导方法,让导数为0,得到一个矩阵方程,矩阵方程的解即为模型的最优解;也可以使用梯度下降法,求模型的最优解。
六、极大似然估计理解正则项
似然函数是指在观测到一组数据时,关于模型参数w的函数。上述的似然函数可以表示为
L
(
w
∣
x
1
,
x
2
,
⋯
,
x
n
)
L(w|x_1,x_2,\cdots,x_n)
L(w∣x1,x2,⋯,xn).
L
(
α
∣
x
1
,
x
2
⋅
⋅
⋅
,
x
n
)
=
P
(
x
1
,
x
2
,
⋅
⋅
⋅
,
x
n
∣
α
)
=
∏
i
=
1
n
P
(
x
i
∣
α
)
L\left( \alpha |x_1,x_2\cdot \cdot \cdot ,x_n \right) =P\left( x_1,x_2,\cdot \cdot \cdot ,x_n|\alpha \right) =\prod_{i=1}^n{P\left( x_i|\alpha \right)}
L(α∣x1,x2⋅⋅⋅,xn)=P(x1,x2,⋅⋅⋅,xn∣α)=i=1∏nP(xi∣α)
似然函数可以看作是一个关于
α
\alpha
α的函数,用于描述在不同参数取值下数据出现的可能性大小。
贝叶斯定理
P
(
α
∣
X
)
=
P
(
X
∣
α
)
P
(
α
)
P
(
X
)
P\left( \alpha |X \right) =\frac{P\left( X|\alpha \right) P\left( \alpha \right)}{P\left( X \right)}
P(α∣X)=P(X)P(X∣α)P(α)
P
(
X
∣
α
)
P(X|\alpha)
P(X∣α)即为在给定模型参数
α
\alpha
α 的情况下,数据集
X
X
X的联合分布,即为似然函数,
P
(
α
)
P(\alpha)
P(α)是先验概率分布,
P
(
X
)
P(X)
P(X)是边缘分布。
因为P(X)是确定的,所以 P ( α ∣ X ) ∞ P ( X ∣ α ) P ( α ) P\left( \alpha |X \right) \infty P\left( X|\alpha \right) P\left( \alpha \right) P(α∣X)∞P(X∣α)P(α) 。
证明过程:
对比式子(3.1)和式子(3.2)可以看到参数的先验概率对应于正则项。当参数的先验分布为高斯分布时,则正则化项为L2范数,构建的回归模型称为Ridge回归。当参数的先验分布为拉普拉斯时,则正则化项为L1范数,构建的回归模型称为LASSO回归。
小结:贝叶斯定理的后验分布与似然函数和先验分布相关,不考虑先验分布时,则损失函数不包含正则化;考虑先验分布时,则损失函数包含正则化;最大化后验分布等同于最小化正则化的损失函数。
6.1、正则项解决的问题是什么呢
在上面我们提到过,利用最小二乘法对多元线性回归损失函数的w求导得到
w
∗
=
(
x
x
T
)
−
1
x
y
T
w^*=\left( xx^T \right) ^{-1}xy^T
w∗=(xxT)−1xyT,当xx^T不满足满秩或半正定矩阵的时候,他的逆不存在,线性回归会存在多个最优解。解决办法就是加入正则项。
E
(
w
)
=
1
2
∑
n
=
1
N
(
y
(
x
n
,
w
)
−
y
n
)
2
+
λ
2
∥
w
∥
2
E\left( w \right) =\frac{1}{2}\sum_{n=1}^N{\left( y\left( x_n,w \right) -y_n \right) ^2+\frac{\lambda}{2}\lVert w \rVert}^2
E(w)=21n=1∑N(y(xn,w)−yn)2+2λ∥w∥2
模型学习的目标是使E(w)越小越好,正则项的加入,使得模型回归误差小的同时,也限制了模型的参数w。
正则项主要对模型的参数起到约束的作用。
正则项还有一个作用就是能够防止过拟合。
6.2、有两种比较常用的正则项:
λ 2 ∑ i = 1 M ∣ ∣ w i ∣ ∣ p \frac{\lambda}{2}\sum_{i=1}^M{||w_i||^p} 2λi=1∑M∣∣wi∣∣p
当p=1时,则正则化项为 L 1 L1 L1范数,构建的线性回归称 L A S S O LASSO LASSO回归。
若p=2时,则正则化项为 L 2 L2 L2范数,构建的线性回归称 R i d g e Ridge Ridge回归。(岭回归)
6.3、正则化的本质以及几何意义:
正则项本质上就是对模型参数的分布做了先验假设,限制模型参数不能跳出这个假设范围,从而实现模型的选择(从众多模型中选择符合先验约束的模型参数)
当p=1时,则正则化项为 L 1 L1 L1范数,模型的参数的分布服从拉普拉斯分布
若p=2时,则正则化项为 L 2 L2 L2范数,模型的参数的分布服从高斯分布
Lasso可以做特征选择。在不删数据的情况下,通过加大惩罚 λ \lambda λ, 使得不重要的特征对应的系数值直接变成0,使其特征不再进入回归的计算,达到特征选取的效果。
Ridge 在不删数据的情况下,通过加大惩罚 λ \lambda λ,它的几何意义是在参数空间中对解向量进行缩放,通过限制参数的取值范围,可以防止模型过度拟合训练数据。
正则项还有一个作用就是能够防止过拟合。
七、总结
1极大似然估计的思想:
寻找一个参数 w w w,使得似然函数 L ( w ∣ x 1 , x 2 , ⋯ , x n ) L(w|x_1,x_2,\cdots,x_n) L(w∣x1,x2,⋯,xn),达到最大,也就是说,找到一个参数w使得观测样本出现的概率最大。
2.线性回归的前提假设:
- 独立同分布假设:在采样时,每个样本都是从总体中独立、随机地抽取出来的,并且每个样本的特征与标签之间的关系相同。
- 随机误差假设:误差项 ϵ 是独立同分布的随机变量,且满足均值为 0,方差为 σ 2 σ^2 σ2 的正态分布
3.掌握梯度下降算法求解参数:
w
j
=
w
j
−
α
∂
(
J
(
w
)
)
∂
w
j
=
w
j
−
α
(
f
(
x
(
i
)
)
−
y
(
i
)
)
⋅
x
j
i
w_j=w_j-\alpha \frac{\partial \left( J\left( w \right) \right)}{\partial w_j}=w_j-\alpha \left( f\left( x^{\left( i \right)} \right) -y^{\left( i \right)} \right) \cdot x_j^i
wj=wj−α∂wj∂(J(w))=wj−α(f(x(i))−y(i))⋅xji
4.掌握 最小二乘法求解模型的参数(d>1):
w
∗
=
(
X
X
T
)
−
1
X
Y
T
w^*=\left( XX^T \right) ^{-1}XY^T
w∗=(XXT)−1XYT
5.正则化的先验假设是什么,思想是什么,作用是什么
正则化的先验假设是什么假设模型的参数服从一个分布(高斯分布或者是拉普拉斯分布),思想是通过引入一个额外的正则项,对模型的参数进行限制,使得模型更加关注最重要的特征,并减少对噪声和无关特征的敏感度,从而提高模型的泛化性能。
另外还通过极大似然函数与贝叶斯推出了线性回归考虑参数的先验分布则损失函数包含正则化,否则不包含正则化项。