损失函数:单个样本的误差 ( y i − f ( x i ) ) 2 (y_i-f(x_i))^2 (yi−f(xi))2
代价函数:所有样本的误差的平均值 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 \frac 1 n\sum_{i=1}^n(y_i-f(x_i))^2 n1i=1∑n(yi−f(xi))2
目标函数:最优化经验风险和结构风险 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 + λ J ( f ) \frac 1 n\sum_{i=1}^n(y_i-f(x_i))^2 + \lambda J(f) n1i=1∑n(yi−f(xi))2+λJ(f)
其中 1 n ∑ i = 1 n ( y i − f ( x i ) ) 2 \frac 1 n \sum_{i=1}^n(y_i-f(x_i))^2 n1∑i=1n(yi−f(xi))2是经验风险(等同于代价函数), J ( f ) J(f) J(f)是结构风险,专门用来度量模型的复杂度,在机器学习中也叫正则化(regularization)。常用的有 L 1 L_1 L1, L 2 L_2 L2范数。