拟合问题的目标是寻求一个函数(曲线),使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合的最好(最小化损失函数)
插值和拟合的区别
与插值问题不同,在拟合问题中不需要曲线一定经过给定的点。
插值算法中,得到的多项式f(x)要经过所有样本点。但是如果样本点太多,那么这个多项式次数过高,会造成龙格现象。
尽管我们可以选择分段的方法避免这种现象,但是更多时候我们更倾向于得到一个确定的曲线,尽管这条曲线不能经过每一个样本点,但只要保证误差足够小即可,这就是拟合的思想。(拟合的结果是得到一个确定的曲线,尽可能接近所有样本点)
最小二乘法
原理
设样本点为(xi,yi),i = 1,2,...,n 我们设置的拟合曲线为y = kx + b ,k和b取何值时,样本点和拟合曲线最接近
第一种定义有绝对值,不容易求导,因此计算比较复杂。所以我们往往使用第二种定义,这也正是最小二乘的思想。
为什么不用四次方?
(1)避免极端数据对拟合曲线的影响。
(2)最小二乘法得到的结果和MLE极大似然估计一致。
不用奇数次方的原因:误差会正负相消。
评价拟合好坏:拟合优度
SSE可能受到量纲的影响,所以单纯判断一个函数的拟合不能只看SSE,但比较两个函数拟合好坏时可以只看SSE
SSE相差不大时采用简单的模型
注:我们这里说的线性函数是指对参数为线性(线性于参数)。y = a + bx2也是线性函数
在函数中,参数仅以一次方出现,且不能乘以或除以其他任何的参数&#