metric deep learning loss

最新推荐文章于 2024-07-16 13:40:36 发布

zshfeng

最新推荐文章于 2024-07-16 13:40:36 发布

阅读量1.1k

点赞数 1

分类专栏：深度学习人脸识别

本文链接：https://blog.csdn.net/zshfeng/article/details/78039570

版权

深度学习同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

人脸识别

1 篇文章 0 订阅

订阅专栏

1. softmax loss

Forward:

Z j = w T y j x i + b y j （ 1 ）

$Z_j={w^T_{{y_j}}x_i+b_{y_j}} （1）$

p j = e Z j \sum k e Z k （ 2 ）

$p_j = \frac{e^{Z_j}}{\sum_k e^{Z_k}} （2）$

L k = - \sum j q j, k l o g p j （ 3 ）

$L_k=-\sum_j q_{j,k} log {p_j}（3）$
Backward:

\partial p j \partial Z m = p j (1 - p j), m = j

$\frac {\partial p_j}{\partial Z_m}=p_j(1-p_j),m=j$

\partial p j \partial Z m = - p j p m, m \neq j

$\frac {\partial p_j}{\partial Z_m}=-p_jp_m,m\ne j$

\partial L k \partial Z m = = = = = = - \sum j q j, k \partial l o g p j \partial Z m - \sum j q j, k 1 p j \partial p j \partial Z m - \sum j = m q j, k 1 p j p j (1 - p j) - \sum m \neq j q j, k 1 p j (- p j p m) - \sum j = m q j, k (1 - p j) - \sum m \neq j q j, k (- p m) - \sum j = m q j, k (1 - p j) - \sum m \neq j q j, k (- p m) p m - q m, k

$\begin{array}{lcl} \frac {\partial L_k}{\partial Z_m} & = &-\sum_j q_{j,k}{\frac {\partial logp_j}{\partial Z_m}}\\ & = &-\sum_j q_{j,k}{\frac {1}{p_j}}{\frac {\partial p_j}{\partial Z_m}}\\ & = & -\sum_{j=m} q_{j,k}{\frac {1}{p_j}}p_j(1-p_j)-\sum_{m\ne j} q_{j,k}{\frac {1}{p_j}}(-p_jp_m)\\ & = & -\sum_{j=m} q_{j,k}(1-p_j)-\sum_{m\ne j} q_{j,k}(-p_m)\\ & = & -\sum_{j=m} q_{j,k}(1-p_j)-\sum_{m\ne j} q_{j,k}(-p_m)\\ & = & p_m - q_{m,k} \end{array}$

\partial L i \partial w k = \partial L i \partial Z m \partial Z m \partial w k = x T i (p m - q m, i)

$\frac {\partial L_i}{\partial w_k} = \frac {\partial L_i}{\partial Z_m} \frac {\partial Z_m}{\partial w_k}=x_i^T(p_m-q_{m,i})$

\nabla w k L = 1 / N \sum i x T i (p m - q m, i) + 2 λ w k

$\nabla_{w_k} L=1/N \sum_i x_i^T(p_m-q_{m,i})+2\lambda w_k$
交叉熵softmax注意事项：
1. 在用softmaxloss训练模型时，如果学习率太大，可能会导致loss=NAN。考虑上面第（2）式子，如果j=k时，

pj $p_j$ 趋近于0，（3）loss就会nan。如果出现这种情况，可以考虑用较小的学习率。也有可能是初始化权重太大，尝试用不同的初始化策略，比如用xaiver把初始化的权重再除以10或100，尝试加batch_normalizetion层，可以把输出scale较小的范围。
2. 考虑数值计算稳定性情况下的Softmax损失函数