视频链接
【KAN网络】非线性空间美学的崛起,傅里叶级数转世泰勒展开重生_哔哩哔哩_bilibili
1、KAN和MLP的本质区别
MLP:输入的线性组合外套一层激活函数,从而实现非线性变换 写成矩阵形式更为简洁
对于深度神经网络就是线性组合 激活函数 再组合 再激活 如此反复
把线性空间不断变换扭曲成非线性的空间 这使得原来非线性不可分的数据在新的空间中反倒线性可分了
MLP的优点:结构简洁高效
MLP的缺点:
1、激活函数固定而脆弱,一旦导数为0或者太大,就会产生梯度消失/爆炸,导致反向传播失效
2、线性组合过于简单,想学到有用的信息需要庞大的参数量,效率的低下,处理高维数据或者长期依赖能力有限
- KAN:针对MLP的缺点做了改进,对于输入直接激活非线性变换然后再组合,在这个两层结构中,相当于把激活函数放到了连接上
以样条函数(作为激活函数)为例,当多个样条函数组合起来就能模拟任意函数
写成公式如上图所示,数学上叫Kolmogorov-Arnold表示定理,这也是KAN网络名字的来源了。
2、KAN的核心原理和主要思想
单丝不成线,独木难成林,单独的KAN结构其实用处不大,KAN的牛逼之处在于扩展了深度网络,写成矩阵形式不再是MLP线性组合与激活的嵌套,而是激活 激活 再激活
比如选择样条函数进行参数化学习,虽然学起来比线性模型更难,但是非线性表征能力大大提升,能用很少的节点实现更高的准确度,一个两层宽度为10的KAN网络求解偏微分方程比一个四层宽度为100的MLP效果还要好,KAN是这个MLP参数量的1%
3.为什么它有很好的准确性和可解释性
除了上述提到的结构上的优势还必须有好的训练算法,MLP通过增加网络宽度和深度提升性能,需要独立训练不同大小的模型,
而KAN提出了网格扩展技术,先粗后精,递进精调,无需重训就能实现模型精度的提升,
除此之外他还提出了新的网络结构自适应算法:在初始网络上通过稀疏化,剪枝,设定特定的激活函数,训练放射参数,符号化等步骤进行优化,大大提升了网络的可解释性让神经网络这个黑河训练的老大难问题得到了极大的缓解
例:求解f(x,y)=xy网络的结构如下图所示
x和y经过直线求和再二次函数对应x加y的平方,而二者直接二次函数激活对应x方和y方,过反斜杠直线相当于求差,简直就是所见即所得,这带来了两大好处,正着用算法可以实现数据内在模式的探索和发现,反着用能把世界模型和学科知识嵌入网络结构,让Sora这样的模型长上翅膀,实现对物理世界的真实模拟
4、当前的缺点和对AI领域的深远影响
官方的代码目前还非常的幼稚。跑起来比较慢,工程化尚且不足,此外数学层面上核心的K-A表示定理能否扩展到深层网络还有待论证,但瑕不掩瑜KAN的出现如同哥伦布发现了新大陆,对AI尤其是深度学习提供了更广阔的空间
对于3中的技术细节详见下一篇《KAN》论文笔记