机器学习之损失函数（代价函数）

最新推荐文章于 2024-07-10 15:08:52 发布

喂鱼W_y

最新推荐文章于 2024-07-10 15:08:52 发布

阅读量1.5k

点赞数

分类专栏：机器学习文章标签：机器学习

机器学习专栏收录该内容

23 篇文章 2 订阅

订阅专栏

- 一、分类算法中的损失函数

一、分类算法中的损失函数

在分类算法中,损失函数通常可以表示成损失项和正则项的和，即如下的形式：

J (w) = \sum i L (m i (w)) + λ R (w)

$J(\textbf{w})=\sum_iL(m_i(\textbf{w}))+\lambda R(\textbf{w})$
其中，

L(mi(w)) L ( m i ( w ) ) $L(m_i(\textbf{w}))$ 为损失项，

R(w) R ( w ) $R(\textbf{w})$ 为正则项。

mi m i $m_i$ 的具体形式如下：

m i = y (i) f w (x (i)) y (i) \in {- 1, 1} f w (x (i)) = w T x (i)

$m_i=y^{(i)}f_\textbf{w}(\textbf{x}^{(i)})\\ y^{(i)}\in\{-1, 1\}\\ f_{\textbf{w}}(\textbf{x}^{(i)})=\textbf{w}^T\textbf{x}^{(i)}$
对于损失项，主要形式如下：

0-1损失
Log损失
Hingo损失
指数损失
感知损失

1、0-1损失函数

在分类问题中，可以使用函数的正负号来进行模式判断，函数本身大小并不是很重要，0-1损失函数比较的是预测值 $f_{\textbf{w}}(\textbf{x}^{(i)})$
与真实值 $y^{(i)}$ 的符号是否相同，0-1损失的具体形式如下：

L 01 (m) = {0 if m \geq 0 1 if m < 0

$L_{01}(m)=\begin{cases} 0 \quad\text{if } m\ge 0\\ 1\quad \text{if } m < 0\end{cases}$
等价于函数：

12(1−sign(m)) 1 2 ( 1 − s i g n ( m ) ) $\frac{1}{2}(1-sign(m))$ 。0-1损失并不依赖m值的大小，只取决于m的正负号。0-1损失是一个非凸函数，求解过程中存在很多不足，通常实际使用中将0-1损失函数作为一个标准，选择0-1损失函数的代理函数作为损失函数。

2、Log损失函数

2. 1 Log损失

Log损失是0-1损失函数的一种代理函数，Log损失的具体形式如下：

log (1 + exp (- m))

$\log(1+\exp(-m))$
运用Log损失的经典分类器是Logistic回归算法。

2. 2 Logistic回归算法的损失函数

对于Logistic回归算法，分类器可以表示成：

p (y | x; w) = σ (w T x) y (1 - σ (w T x)) (1 - y)

$p(y|\textbf{x};\textbf{w})=\sigma(\textbf{w}^T\textbf{x})^y(1-\sigma(\textbf{w}^T\textbf{x}))^{(1-y)}$
其中

y∈{0,1},σ(x)=11+exp(−x) y ∈ { 0 , 1 } , σ ( x ) = 1 1 + exp ⁡ ( − x ) $y\in\{0,1\}, \sigma(x)=\frac{1}{1+\exp(-x)}$ 。为了求解其中的参数

w w $\textbf{w}$ ，通常使用极大似然估计的方法，具体过程如下：
1、似然函数

L (w) = \prod i = 1 n σ (w T x (i)) y (i) (1 - σ (w T x (i)) (1 - y (i))

$L(\textbf{w})=\prod^n_{i=1}\sigma(\textbf{w}^T\textbf{x}^{(i)})^{y^{(i)}}(1-\sigma(\textbf{w}^T\textbf{x}^{(i)})^{(1-y^{(i)})}$
2、log似然

log [L (w)] = \sum i = 1 n y (i) log [σ (w T x (i))] + (1 - y (i)) log [(1 - σ (w T x (i))]

$\log[L(\textbf{w})]=\sum^n_{i=1}y^{(i)}\log [\sigma(\textbf{w}^T\textbf{x}^{(i)})]+{(1-y^{(i)})}\log[(1-\sigma(\textbf{w}^T\textbf{x}^{(i)})]$
3、需要求解的是使得log似然取得最大值的

w w $\textbf{w}$ ,可以转换成求最小值

- log [L (w)] = - \sum i = 1 n y (i) log [σ (w T x (i))] + (1 - y (i)) log [(1 - σ (w T x (i))]

$-\log[L(\textbf{w})]=-\sum^n_{i=1}y^{(i)}\log [\sigma(\textbf{w}^T\textbf{x}^{(i)})]+{(1-y^{(i)})}\log[(1-\sigma(\textbf{w}^T\textbf{x}^{(i)})]$
这便是交叉熵的具体形式。

2. 3 二者的等价

由于Log损失的具体形式为：

log (1 + exp (- m))

$\log(1+\exp(-m))$
其中，

mi=y(i)fw(x(i)) m i = y ( i ) f w ( x ( i ) ) $m_i=y^{(i)}f_\textbf{w}(\textbf{x}^{(i)})$ ,

y(i)∈{−1,1} y ( i ) ∈ { − 1 , 1 } $y^{(i)}\in\{-1, 1\}$ 。Log损失函数的具体形式为：

min w \sum i = 1 n log {1 + exp (- y (i) w T x (i))}

$\min_{\textbf{w}}\sum^n_{i=1}\log\left\{1+\exp(-y^{(i)}\textbf{w}^T\textbf{x}^{(i)})\right\}$
Logistic回归与Log损失具有相同的形式，两者是等价的。

3、Hinge损失函数

3.1 Hinge损失

Hinge损失是0-1损失函数的一种代理函数。具体形式如下：

max (0, 1 - m)

$\max(0,1-m)$
运用Hinge损失的典型分类器是SVM算法。

3.2 SVM的损失函数

对于软间隔支持向量机，允许在间隔的计算中出现少量的误差 $\bar\xi=(\xi_1,...,\xi_n)$ ，优化目标是：

min w, γ, ξ [1 2 ‖ w ‖ 2 + C \sum i = 1 n ξ i]

$\min_{\textbf{w},\gamma,\xi}\left[\frac{1}{2}\|\textbf{w}\|^2+C\sum_{i=1}^n\xi_i\right]$
约束条件是：

(w T x (i) + γ) y (i) \geq 1 - ξ i ， ξ i \geq 0

$(\textbf{w}^T\textbf{x}^{(i)}+\gamma)y^{(i)}\ge 1-\xi_i ，\quad\xi_i\ge 0$

3.3 二者的等价

对于Hinge损失：

max (0, 1 - m)

$\max(0, 1-m)$
优化的目标是要求：

min w [\sum i = 1 n max (0, 1 - f w (x (i)) y (i))]

$\min_{\textbf{w}}\left[\sum^n_{i=1}\max(0, 1-f_{\textbf{w}}(\textbf{x}^{(i)})y^{(i)})\right]$
在上诉的函数

fw(x(i)) f w ( x ( i ) ) $f_{\textbf{w}}(\textbf{x}^{(i)})$ 中引入截距

γ γ $\gamma$ ，即：

f w, γ (x (i)) = w T x (i) + γ

$f_{\textbf{w},\gamma}(\textbf{x}^{(i)})=\textbf{w}^T\textbf{x}^{(i)}+\gamma$
并在上述问题中增加

L2 L 2 $L_2$ 正则，即变为：

min w, γ [C \sum i = 1 n max (0, 1 - f w (x (i)) y (i)) + 1 2 ‖ w ‖ 2]

$\min_{\textbf{w},\gamma}\left[C\sum^n_{i=1}\max(0, 1-f_{\textbf{w}}(\textbf{x}^{(i)})y^{(i)})+\frac{1}{2}\|\textbf{w}\|^2\right]$
我们看到SVM软间隔问题中的约束条件为：