插值与拟合的区别
在很多教程中,都将插值和拟合归为一类,实际上,二者相似但有明显区别。拟合问题与插值问题不同,在拟合中不需要曲线一定经过给定的点。拟合问题的目标是寻求一个函数(曲线),使得该曲线在某种准则下与所有的数据点最为接近,即曲线拟合的最好(最小化损失函数)。
最小二乘法
-
几何解释:
我们往往使用第二种定义- 不用第一种的原因:第一种定义有绝对值,不容易求导,因此计算比较复杂。
- 不用三次方(奇次方)的原因:会发生正负相抵的情况
- 不用四次方的原因:
(1)避免极端数据对拟合曲线的影响。
如果出现一个异常值 对曲线的干扰会非常大
(2)最小二乘法得到的结果和MLE极大似然估计一致。
-
求解最小二乘法:(只需记住b和k的结论即可)
-
评价拟合的好坏:
-
可以证明:SST=SSE+SSR
-
拟合优度:0≤ R2 = 1-SSE/SST ≤1
R^2越接近1,说明误差平方和越接近0,说明拟合的越好
-
注意:
(1).R^2只能用于拟合函数是线性函数时对拟合结果的评价;
(2).比较线性函数和其他函数(如复杂的指数函数)拟合的好坏时,直接看SSE即可
原因:R2 = 1-SSE/SST 的表达式只有在SST=SSE+SSR时才成立,而只有线性函数才满足这个等式(具体可看SST=SSE+SSR的证明过程) -
线性函数:对此我们必须知道线性一次的真正含义,可对它作两种解释:
我们这里说的线性函数是指对参数为线性(线性于参数)。如y=a+bx2 是线性函数(对于a和b为线性),如y=a/(x-b)2 、y=a sin(b+c*)都不是线性函数,不能用R2 来拟合。
另外,在比较两种模型的拟合度时,不能只依靠R2 或SSE 的大小,应尽量保重曲线方程简单且拟合程度较高。
-
Matlab实现
clear;clc
load data1 %data1为x和y的序列
plot(x,y,'o')
% 给x和y轴加上标签
xlabel('x的值')
ylabel('y的值')
n = size(x,1);
k = (n*sum(x.*y)-sum(x)*sum(y))/(n*sum(x.*x)-sum(x)*sum(x))
b = (sum(x.*x)*sum(y)-sum(x)*sum(x.*y))/(n*sum(x.*x)-sum(x)*sum(x))
hold on % 继续在之前的图形上来画图形
grid on % 显示网格线
% % 画出y=kx+b的函数图像 plot(x,y)
% % 传统的画法:模拟生成x和y的序列,比如要画出[0,5]上的图形
% xx = 2.5: 0.1 :7 % 间隔设置的越小画出来的图形越准确
% yy = k * xx + b % k和b都是已知值
% plot(xx,yy,'-')
% 匿名函数的基本用法。
% handle = @(arglist) anonymous_function
% 其中handle为调用匿名函数时使用的名字。
% arglist为匿名函数的输入参数,可以是一个,也可以是多个,用逗号分隔。
% anonymous_function为匿名函数的表达式。
% 举个小例子
% z=@(x,y) x^2+y^2;
% z(1,2)
% % ans = 5
% fplot函数可用于画出匿名一元函数的图形。
% fplot(f,xinterval) 将匿名函数f在指定区间xinterval绘图。xinterval = [xmin xmax] 表示定义域的范围
data1:
x
4.2
5.9
2.7
3.8
3.8
5.6
6.9
3.5
3.6
2.9
4.2
6.1
5.5
6.6
2.9
3.3
5.9
6
5.6
y
8.4
11.7
4.2
6.1
7.9
10.2
13.2
6.6
6
4.6
8.4
12
10.3
13.3
4.6
6.7
10.8
11.5
9.9
运行后的图像为: