革命性新网络KAN【第二篇-相比MLP，KAN胜在哪？】

小曦成长日记

已于 2024-05-08 15:29:07 修改

阅读量2.2k

点赞数 12

文章标签：人工智能机器学习论文阅读论文笔记

于 2024-05-08 15:23:53 首次发布

本文链接：https://blog.csdn.net/weixin_54335478/article/details/138572248

版权

本文承接【第一篇-base】，展开讲解KAN与MLP的对比。原文从不同角度给出了KAN相比MLP的优越性，同时也给出了KAN目前的一些限制。
下面就让我们从6个方面走进KAN。希望大家有所收获！

导言

与传统的MLP 相比，KAN 有4个主要特点：

1）激活函数位于“边”而不是节点（Node）上；

2）激活函数是可学习的而不是固定的；

3）可使用非线性核函数来替代MLP“边”（Edge）上的线性函数；

4）可设定细粒度的结点（Knot）来提高逼近精度。

$KAN \approx MLP + Spline$

在数学中，样条曲线是由多项式分段定义的函数。一般的Spline可以是特定区间的3阶多项式。

在插值问题中，样条插值通常优于多项式插值，因为即使使用低次多项式，也能产生类似的精度结果，同时避免了高次多项式的Runge's phenomenon（在一组等距插值点上使用高次多项式进行多项式插值时出现的区间边缘振荡问题）。

简化KANs并使它们具有交互式意义

研究人员设计了一个简单的回归实验，以展现用户可以在与KAN的交互过程中，获得可解释性最强的结果。
假设用户对于找出符号公式感兴趣，总共需要经过5个交互步骤。

步骤 1：带有稀疏化的训练。
从全连接的KAN开始，通过带有稀疏化正则化的训练可以使网络变得更稀疏，从而可以发现隐藏层中，5个神经元中的4个都看起来没什么作用。

步骤 2：剪枝
自动剪枝后，丢弃掉所有无用的隐藏神经元，只留下一个KAN，把激活函数匹配到已知的符号函数上。

步骤 3：设置符号函数
假设用户可以正确地从盯着KAN图表猜测出这些符号公式，就可以直接设置:

如果用户没有领域知识或不知道这些激活函数可能是哪些符号函数，研究人员提供了一个函数suggest_symbolic来建议符号候选项。

步骤 4：进一步训练
在网络中所有的激活函数都符号化之后，唯一剩下的参数就是仿射参数；继续训练仿射参数，当看到损失降到机器精度（machine precision）时，就能意识到模型已经找到了正确的符号表达式。

步骤 5：输出符号公式
使用Sympy计算输出节点的符号公式，验证正确答案。

为什么不符号回归？

性能更强

作为合理性检验，研究人员构造了五个已知具有平滑KA（柯尔莫哥洛夫-阿诺德）表示的例子作为验证数据集，通过每200步增加网格点的方式对KANs进行训练，覆盖G的范围为{3,5,10,20,50,100,200,500,1000}。使用不同深度和宽度的MLPs作为基线模型，并且KANs和MLPs都使用LBFGS算法总共训练1800步，再用RMSE作为指标进行对比。

从结果中可以看到，KAN的曲线更抖，能够快速收敛，达到平稳状态；并且比MLP的缩放曲线更好，尤其是在高维的情况下。同时，三层KAN的性能要远远强于两层，表明更深的KANs具有更强的表达能力，符合预期。