第一部分:对“准确”二字的理解
“准确”分为“准”和“确”两个部分:“准”代表射中靶心,输出正确;“确”代表射中的结果比较集中在一个区域,不分散,稳定。
在学术上,通常用“偏差Bias”来衡量“准”;
用“方差Variance”来衡量“确”;
用“噪声Noise”表示极限情况下的“误差值”。
①每一个样本都有自己的“偏差”,而“方差”是针对整个数据集的。
②上面的偏差用平方来表示是为了消除正负号的影响。
第二部分:对“误差”的衡量
如果偏差过大,会造成“欠拟合”
如果方差过大,会造成“过拟合”
如果噪声过大,“不收敛”
第三部分:误差出现的原因分析
第四部分:误差与训练的关系走向图
(1)误差与训练程度的走向
(2)误差和模型复杂程度的关系走向
第五部分:模型自身特点和平衡点的选择
(1)模型自身特点
(2)平衡点的选择
我们的目标是找到总体误差的最小值,也就是中间这条线。
第六部分:如何降低方差和偏差
(1)降低偏差
(2)降低方差
这里的“尽可能增加样本数”是因为随着样本数的增加,训练效果会越来越好,每次预测的准确度就很好,自然方差就会减小。
第六部分:经验风险(Empirical Risk)
经验风险(Empirical Risk)是在统计学习理论中用于衡量模型在训练集上的预测误差的概念。它指的是模型在给定训练数据集上产生的平均损失,是用来评估模型在已知数据上的表现。
其曲线走势就是第四部分的红线(偏差)的走势
第七部分:期望风险(Expected Risk)
期望风险(Expected Risk)是统计学习理论中的一个概念,用于衡量模型在所有可能的样本上产生的平均损失。它表示模型在数据的真实分布下的表现,是模型泛化能力的理想指标。
期望风险的图像走势就是第四部分的黑线(总体误差曲线)
第八部分:训练误差和泛化误差
训练误差:指的是模型在训练数据上的误差
泛化误差:指的是模型在新数据上的误差