概述
偏差:预测值与真实值的差距——算法本身的拟合能力。
方差:预测值的变化范围——数据扰动所造成的影响。
在这里,我们对数据集还要进行划分,分为训练集(训练模型)、验证集(模型选择,模型的最终优化)、测试集(利用训练好的模型进行测试),通常他们的比例为6:2:2
而在我们的模型中由于特征的数量,样本大小,lamda值的选取,所训练出来的模型或多或少都会有偏差,而我们便采用偏差(bias)和方差(variance)来描述,并根据不同情况采取不同的解决办法
learning curse
在这里,我们最需要的是学会画出lc来进行分析,我们根据数据,按一定规模递增数据个数,进行训练,求出每次的训练集代价和验证集代价,并将他们画在同一张图上
def plot_learning_curve(x_train,y_train,x_val,y_val,lamda):
x = range(1,len(x_train)+1)
training_cost =