在李航的《统计学习方法》中多项式拟合偏导函数推导存在的疑问

weixin_62785602

已于 2024-07-04 00:10:28 修改

阅读量873

点赞数 28

文章标签：学习方法机器学习笔记

于 2024-07-03 22:12:14 首次发布

本文链接：https://blog.csdn.net/weixin_62785602/article/details/140163231

版权

在阅读李航的《统计学习理论第二版》1.42过拟合与模型选择中遇到的一个问题。

在这里插入图片描述

这段公式的推导让我费解，于是我开始了自己的验证。

前提：用多项式函数对已知数据的拟合。

设拟合函数为：
$f(x)=w_0x^0+w_1x^1+w_2x^2+....+w_mx^m=\Sigma_{i=0}^mw_jx^j$
设数据集为：
$dataset=\{(x_1,y_1),(x_2,y_2),(x_3,y_3)...(x_n,y_n)\}$
设损失函数为：
$L=\frac{1}{2}\Sigma_{i=1}^n[f(x_i)-y_i]^2$
求闭式解的思路很简单，对 $w_j$ 求偏导，令其为0即可得到结果，但其中涉及一些棘手的求和符号内求导的问题，很容易出错，所以有必要把每个过程都搞清楚。

首先带入 $f (x)$ ，其中 $x_i^j$ 为第 $i$ 个数据的 $j$ 次幂，即 $x_i)^j$
$L=\frac{1}{2}\Sigma_{i=1}^n[\Sigma_{j=0}^mw_jx_i^j-y_i]^2$
对 $w_j$ 求偏导：
$\frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{j=0}^mw_jx_i^j-y_i]\cdot \frac{\partial \Sigma_{j=0}^mw_jx_i^j}{\partial w_j}$
$\frac{\partial \Sigma_{j=0}^mw_jx_i^j}{\partial w_j}$ 这个偏导的结果可以直接对 $w_j$ 求偏导并去掉求和符号，即为 $x_i^j$ 。取简单的情况验证，也的确符合这个结果。

故上式变为：
$\frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{j=0}^mw_jx_i^j-y_i]\cdot x_i^j$
可能有人疑惑，这里 $x_i^j$ 不受求和符号控制了，是否是错了，但实际上该偏导的结果是与 $j$ 有关的，存在不受求和符号控制的关于 $j$ 的因子是正常的。继续变形得到：
$\frac{\partial L}{\partial w_j}=\Sigma_{i=1}^nx_i^j[\Sigma_{j=0}^mw_jx_i^{j}]-\Sigma_{i=1}^ny_i\cdot x_i^j$
接下来的变形需要将 $w_j$ 从求和符号中拿出来：
$\frac{\partial L}{\partial w_j}=\Sigma_{i=1}^nx_i^j[\Sigma_{k=0,k\neq j}^mw_kx_i^k+w_jx_i^j]-\Sigma_{i=1}^ny_i\cdot x_i^j$
之后的变形就方便许多了：
$\frac{\partial L}{\partial w_j}=\Sigma_{i=1}^n[\Sigma_{k=0,k\neq j}^mw_kx_i^{k+j}]+\Sigma_{i=1}^nw_jx_i^{2j}-\Sigma_{i=1}^ny_i\cdot x_i^j=0$
至此，直接移项就可得到结果：
$\Sigma_{i=1}^nw_jx_i^{2j}=\Sigma_{i=1}^ny_i\cdot x_i^j-\Sigma_{i=1}^n[\Sigma_{k=0,k\neq j}^mw_kx_i^{k+j}]$
$w_j$ 可以直接拿出来：
$w_j=\frac{\Sigma_{i=1}^ny_i\cdot x_i^{j}-\Sigma_{i=1}^n[\Sigma_{k=0,k\neq j}^mw_kx_i^{k+j}]}{\Sigma_{i=1}^nx_i^{2j}}$

这个结果很奇怪既不优美，而且和这本书的作者写的不一样，和我搜到的其他博客，得到的结果也不一样，比如这位大佬。仔细查看了一下，发现他与我在最开始对
$\frac{\partial \Sigma_{j=0}^mw_jx_i^j}{\partial w_j}$
这个偏导的结果大相径庭。但我觉得如果我对这个偏导的对象理解没有错，我的结果（至少这部分）应该是正确的。接下来的我决定用程序验证一下，在此暂时记录一下。。。