主要讲了一个如何通过回归利用已有的数据来预测未知的数据
1.首先是选择一个model(是一系列function的集合),本次选用的是linear-function,给b(偏差)和wi(权重)一个初始值
2.准备一些训练集进行训练(是带有输入和输出的一组数据)---得到损失函数Loss(输出--f(b+wi*输入)),我们的目的是通过合适的b和Wi使损失函数达到最小
3.选择b和Wi的方法是梯度下降法,选择一个learning rate。通过不断的取微分,得到最优解的一个(bi和wi),最后我们比较training data的eror和testing的eror,判断我们最后训练出来的参数的好坏
4.如果我们选择2阶,3阶,4阶·····最后得到的参数误差一定会小么,不一定,会有一个趋势(并不是越高阶越复杂的function训练出来的越好),这种错误叫过度拟合(overfitting)
5.先前我们只考虑了同一类的数据,如果是不同种类的数据呢(对应的就是不同组bi和wi)
6.先前只考虑了一个x(某一参数),如果我们加入其他参数x2,x3,如下图
可以得到一个更小的eror,但是testing不一定最小。
为了解决这个问题,-----regularization
在最后加一个*
wi2 是为了得到一个平滑的function
平滑的function对于loss不是很敏感,最后得到一个随着,找到testing eror最小的那个点即为我们最后的参数取值。