优化算法
文章平均质量分 96
InceptionZ
这个作者很懒,什么都没留下…
展开
-
均方误差和交叉熵损失的适用场景分析
1. 为什么分类问题用交叉熵损失而不用均方误差?2. 回归问题为什么不适用交叉熵损失?原创 2022-06-16 22:23:58 · 1284 阅读 · 0 评论 -
机器学习回归任务中的评价指标
分类问题的评价指标是准确率,那么回归算法的评价指标就是MSE,RMSE,MAE、R-Squared①RMSE(Root Mean Square Error)均方根误差衡量观测值与真实值之间的偏差。常用来作为机器学习模型预测结果衡量的标准。②MSE(Mean Square Error)均方误差MSE是真实值与预测值的差值的平方然后求和平均。通过平方的形式便于求导,所以常被用作线性回归的损失函数。③MAE(Mean Absolute Error)平均绝对误差是绝对误差的平均值。可以更好地反映预测原创 2020-10-12 21:51:07 · 4725 阅读 · 0 评论 -
Variance&Deviation Tradeoff(方差、偏差权衡)
0 写在前面今天,突然想起来偏方差的分解问题,于是我想系统的推一推公式,再次复习一下周志华老师的西瓜书上关于偏方差的问题。1 正文首先周老师为了引入偏方差分解问题,提出了一个问题:“对学习算法除了通过实验估计其泛化性能,人们往往还希望了解为什么具有这样的性能。偏差-方差分解(bias-variance decomposition)是解释学习算法泛化性能的一种重要工具。”2 公式推导西瓜书p45页公式推导:这里解释一点:即假设噪声的期望为0的合理性对于一般算法问题,我们都会假设噪声的分布是服从0原创 2020-10-08 18:20:25 · 1230 阅读 · 0 评论 -
神经网络中参数的初始化问题
1. 为什么神经网络不能初始化权重W为0?参考博客2. 随意初始化为非零的权重是否可行?答案肯定是不行的!随意的初始化权重可能会导致梯度爆炸和梯度消失。例如当神经网络为线性的,我们初始化所有参数W=0.1或者W=0.9,都会造成指数级影响3. 如何解决神经网络中参数初始化问题?对于Relu函数我们一般使用0均值和方差为2/n[l-1]的正太分布对于tanh函数,使用0均值和方差为1/n[l-1]的正态分布,被称之为Xavier初始化...原创 2020-06-04 15:25:55 · 801 阅读 · 0 评论 -
如何处理样本不平衡问题
项目中出现了二分类数据不平衡问题,研究总结下对于类别不平横问题的处理经验:1:为什么类别不平衡会影响模型的输出:许多模型的输出类别是基于阈值的,例如逻辑回归中小于0.5的为反例,大于则为正例。在数据不平衡时,默认的阈值会导致模型输出倾向与类别数据多的类别。因此可以在实际应用中,解决办法包括:1)调整分类阈值,使得更倾向与类别少的数据。2)选择合适的评估标准,比如ROC或者F1,而不是准确度(accuracy)3)过采样法(sampling):来处理不平横的问题。分为欠采样(undersampli原创 2020-06-04 09:08:21 · 493 阅读 · 0 评论 -
详解RNN、LSTM、GRU
写在前面本博客会分三大部分:1.RNN详解,这块会介绍到双向RNN,也会简单提一下深度RNN模型2.LSTM内部结构详解3.GRU单元详解1. RNN详解首先要说明一点:图中所有的W相等,所有的U相等,所有的V相等,即RNN实现参数共享。1.1符号解释:考虑St结点,t代表t时刻,St就代表t时刻隐藏结点的值①W权重矩阵:指的是上一个隐藏结点的值St-1所需要乘的参数矩阵,它会对St的值贡献一部分②U权重矩阵:Xt所需要成的参数矩阵,它也会对St的值贡献一部分。(TIPS:等于说St的原创 2020-06-01 17:12:08 · 1371 阅读 · 0 评论 -
标签平滑(label smoothing)
1. 什么是标签平滑?标签平滑就是用来解决over-confident的问题,这类问题在对抗构建中尤为重要(GANs)通俗来讲机器学习的样本中通常会存在少量错误标签,这些错误标签会影响到预测的效果。标签平滑采用如下思路解决这个问题:在训练时即假设标签可能存在错误,避免“过分”相信训练样本的标签。当目标函数为交叉熵时,这一思想有非常简单的实现,称为标签平滑(Label Smoothing)。我们以2类分类问题为例,此时训练样本为(xi,yi),其中yi是样本标签,为0或1。在训练样本原创 2020-05-30 09:23:48 · 18839 阅读 · 8 评论 -
深入理解批标准化(Batch Normalization)
文章目录0 前言1 “Internal Covariate Shift”问题1.1 什么是“Internal Covariate Shift”2 Batch Norm的本质思想2.1 本质思想2.2 将激活输入调整为N(0,1)有何用?2.3 存在的一个问题3 Batch Norm的训练过程3.1 再Mini-batch SGD下做BN操作4 Batch Norm的预测过程4.1 预测中存在的问题...原创 2020-04-14 12:29:21 · 1223 阅读 · 2 评论 -
深度学习中的正则化策略总结
文章目录1. 正则化的概念1.1 过拟合2. 参数范数惩罚2.1 L1和L2概述2.2 L1正则化2.2.1 L1正则化与稀疏性2.3 L2正则化3. Dropout Regularization(随机失活)3.1 理解dropout3.2 dropout 如何工作3.3 dropout为何有效3.4 使用技巧3.5 dropout缺点3.6 当前Dropout的使用情况4. Early stop...原创 2020-02-27 17:00:44 · 1676 阅读 · 1 评论 -
4种梯度下降的变种优化算法的拙见:Adagrad、RMSprop、Momentum、Adam
一、算法简述Momentum(动量法):模拟物理动量的概念,积累之前的动量来替代真正的梯度Adagrad(Adaptive Gradient):每个参数反比于历史梯度平方总和的平方根RMSprop(Root Mean Squared propagation):AdaGrad的升级(将梯度积累替换为Running Average)Adam(Adaptive Moment Estimati...原创 2020-02-14 18:55:27 · 3556 阅读 · 0 评论