《KAN》的四个问题（转自b站耿直哥）

工大CV吴彦祖

已于 2024-05-20 16:03:08 修改

阅读量922

点赞数 18

分类专栏： CV论文笔记 NLP论文笔记文章标签：人工智能机器学习

于 2024-05-20 15:58:59 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/zssss12/article/details/139062689

版权

CV论文笔记同时被 2 个专栏收录

32 篇文章

订阅专栏

NLP论文笔记

3 篇文章

订阅专栏

视频链接

【KAN网络】非线性空间美学的崛起，傅里叶级数转世泰勒展开重生_哔哩哔哩_bilibili

1、KAN和MLP的本质区别

MLP：输入的线性组合外套一层激活函数，从而实现非线性变换写成矩阵形式更为简洁

对于深度神经网络就是线性组合激活函数再组合再激活如此反复

把线性空间不断变换扭曲成非线性的空间这使得原来非线性不可分的数据在新的空间中反倒线性可分了

MLP的优点：结构简洁高效

MLP的缺点：

1、激活函数固定而脆弱，一旦导数为0或者太大，就会产生梯度消失/爆炸，导致反向传播失效

2、线性组合过于简单，想学到有用的信息需要庞大的参数量，效率的低下，处理高维数据或者长期依赖能力有限

KAN：针对MLP的缺点做了改进，对于输入直接激活非线性变换然后再组合，在这个两层结构中,相当于把激活函数放到了连接上

以样条函数（作为激活函数）为例，当多个样条函数组合起来就能模拟任意函数

写成公式如上图所示，数学上叫Kolmogorov-Arnold表示定理，这也是KAN网络名字的来源了。

2、KAN的核心原理和主要思想

单丝不成线，独木难成林，单独的KAN结构其实用处不大，KAN的牛逼之处在于扩展了深度网络，写成矩阵形式不再是MLP线性组合与激活的嵌套，而是激活激活再激活

比如选择样条函数进行参数化学习，虽然学起来比线性模型更难，但是非线性表征能力大大提升，能用很少的节点实现更高的准确度，一个两层宽度为10的KAN网络求解偏微分方程比一个四层宽度为100的MLP效果还要好，KAN是这个MLP参数量的1%

3.为什么它有很好的准确性和可解释性

除了上述提到的结构上的优势还必须有好的训练算法，MLP通过增加网络宽度和深度提升性能，需要独立训练不同大小的模型，

而KAN提出了网格扩展技术，先粗后精，递进精调，无需重训就能实现模型精度的提升，

除此之外他还提出了新的网络结构自适应算法：在初始网络上通过稀疏化，剪枝，设定特定的激活函数，训练放射参数，符号化等步骤进行优化，大大提升了网络的可解释性让神经网络这个黑河训练的老大难问题得到了极大的缓解

例：求解f(x,y)=xy网络的结构如下图所示

x和y经过直线求和再二次函数对应x加y的平方，而二者直接二次函数激活对应x方和y方，过反斜杠直线相当于求差，简直就是所见即所得，这带来了两大好处，正着用算法可以实现数据内在模式的探索和发现，反着用能把世界模型和学科知识嵌入网络结构，让Sora这样的模型长上翅膀，实现对物理世界的真实模拟

4、当前的缺点和对AI领域的深远影响

官方的代码目前还非常的幼稚。跑起来比较慢，工程化尚且不足，此外数学层面上核心的K-A表示定理能否扩展到深层网络还有待论证，但瑕不掩瑜KAN的出现如同哥伦布发现了新大陆，对AI尤其是深度学习提供了更广阔的空间

对于3中的技术细节详见下一篇《KAN》论文笔记

工大CV吴彦祖

博客等级

码龄5年

58
原创

1005
点赞

1281
收藏

697
粉丝

关注

私信

热门文章

分类专栏

最新评论

Conditional DETR论文笔记
工大CV吴彦祖: 前两个问题自行看源码（我也不记得），detr中tgt一般是全0(torch.zeros,训练中不计算梯度）初始化，大小是(num_queries,embed_dim),只起到一个形式上的作用，它对应的的pos_embed是随机初始化，之后tgt与pos_embed相加，所以pos_embed同时用做定位任务和分类任务，所以有些论文也直接撑pos_embed为内容查询对象查询之类的
Conditional DETR论文笔记
开心生活没一天: 请问decoder embedding和object query初始值是多少，为啥tgt不是内容查询object query却是内容查询，总感觉反回来了。
Vision Mamba代码笔记
weixin_46492954: 想问一下，self.if_bidirectional为TRUE且bimamba_type是v2的时候，mamba已经内嵌了双向扫描，为什么还在在forward_features里面正反两次输入并相加呢
Vision Mamba代码笔记
weixin_46492954: 想问一下，self.if_bidirectional为TRUE且bimamba_type是v2的时候，mamba已经内嵌了双向扫描，为什么还在在forward_features里面正反两次输入并相加呢
《ClipCap》论文笔记（上）
琳煜lin: 请问这个是怎么获得图片输入后得到的text_embedding呢

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。