机器学习——当预测结果误差很大时怎么办等多种问题的解决方案

laluneX

已于 2022-07-19 13:15:11 修改

阅读量8.7k

点赞数

分类专栏：机器学习文章标签：机器学习

于 2022-07-10 20:59:55 首次发布

本文链接：https://blog.csdn.net/weixin_45969777/article/details/125422435

版权

8 篇文章

订阅专栏

可以去增加更多的训练数据
可以尝试简化模型
数据增强：人为扩展数据量以增加数据量来解决过拟合
正则化：通过减少每个节点的权重来解决过拟合
正则参数λ：如果有正则项则可以考虑增大正则项参数λ
Dropout（随机失活）：专门用在神经网络的正规化的方法，叫作Dropout。在训练时，每次随机（如50%概率）忽略隐层的某些节点。流程是每个网络只会见过一个训练数据（每次都是随机的新网络），而不同模型之间权值共享。随机地删除网络中的一般隐藏的神经元，这样可以迫使节点分散权重（使权重降低，然后解决过拟合），然后使模型泛化性更强。
early stopping（早停）：在训练中计算模型在验证集上的error，当模型在验证集上的表现开始下降的时候，停止训练，这样就能避免继续训练导致过拟合的问题
batch normalization

先将数据集随机的按3/7分，划分为训练集和测试集
通过训练集训练的出使cost function最小的θ
将得到的θ带入新的cost function，得到 $J_{test}(\theta)=-\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}y_{test}^{(i)}logh_{\theta}(x_{test}^{(i)})+(1-y_{test}^{(i)})logh_{\theta}(x_{test}^{(i)})$
然后计算分类误差率misclassification error，
$err(h_{\theta}(x),y)= \begin{cases} 1& \text{h(x)>=0.5,y=0 or h(x)<=0.5,y=1}\\ 0& \text{otherwise} \end{cases}$

$TestError=\frac{1}{m_{test}}\sum_{i=1}^{m_{test}}err(h_{\theta}(x),y)$

若训练集的 $J_{train}(\theta)$ 很高，而 $J_{cv}(\theta){\approx}J_{train}(\theta)$ 的话，则是欠拟合
若训练集的 $J_{train}(\theta)$ 很低，而 $J_{cv}(\theta){>>}J_{train}(\theta)$ 的话，则是过拟合
若训练集的 $J_{train}(\theta)$ 很高，而 $J_{cv}(\theta){>>}J_{train}(\theta)$ 的话，则是过拟合和欠拟合
若训练集的 $J_{train}(\theta)$ 很低，而 $J_{cv}(\theta){\approx}J_{train}(\theta)$ 的话，则是低偏差和低方差
判断训练集 $J_{train}(\theta)$ 和验证集 $J_{cv}(\theta)$ 高低的前提是基于base error上的，若base error等于10%的话，那 $J_{train}(\theta)$ =8%也算低 $J_{train}(\theta)$
注意 $J_{test}(\theta)$ 与 $J_{train}(\theta)$ 不一定相同（在正则化时就不同）

一般使用 $J_{train}(\theta)$ 或 $J_{cv}(\theta)$ 来绘制学习曲线

可以选择 “小”的神经网络：一层hidden layer，少量的hidden units或者一个hidden unit，它的特点是计算量小，易发生欠拟合
当然也可以用 “大”的神经网络：一层包含多个hidden units的hidden layer，或多层的hidden layers，每层节点数相同，它的特点是计算量大，易发生过拟合，不过过拟合可以通过正则化来解决，当然了hidden layer的层数可以通过把数据划分为训练集、交叉验证集和测试集来解决这个问题

先使用一个可以让你快速运行的简单的模型，而不是一个非常复杂的模型。然后交叉验证数据
绘出学习曲线，来判断是欠拟合或过拟合并分别对症下药
误差分析：它是一种手动的去检查算法所出现的失误的过程。即手动的检查模型预测失败的数据，观察这些数据有什么模式，通过这样它会告诉你如何去改进我们的算法。一般在交叉验证集上进行误差分析
当不确定那些方式是否有用时，可以算出不同方式的误差度量值，然后通过该值来判断哪种方式更好（控制变量法）
1. 查准率-Precision：是指在所有预测为1的样本中预测正确的比率
2. 查全率-Recall：是指在所有真正为1的样本中预测正确的比率
3. 若一个算法的调和平均数高则该算法性能就比较好， $F_1 score=\frac{2PR}{P+R}$

本文只用于个人学习与记录