胶囊网络笔记

weixin_44179676

于 2020-05-05 01:15:14 发布

阅读量186

点赞数

分类专栏： capsule 文章标签：自然语言处理 pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_44179676/article/details/105926587

版权

capsule 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

胶囊网络笔记

胶囊

胶囊

https://spaces.ac.cn/archives/4819这篇文章真的太棒了
一个向量，向量的模长代表概率，向量的分布代表着一定的方向，在计算loss时是使用模长计算，因此允许了向量内部的不同，从而保证鲁棒。
底层的胶囊和高层的胶囊构成一些连接关系
可以理解为底层胶囊使用底层的初级特征做分类，高级胶囊将多个分类的结果聚集整合起来。
通过一些实验，此squash函数比论文中的可能更好，这个函数的特点是在模长很接近于0时起到放大作用，而不像原来的函数那样全局都压缩。

Capsule可优化的地方还有非常多，包括理论上的和实践上的。我觉得整个算法中最不好看的部分并非动态路由，而是那个squash函数。对于非输出层，这个压缩究竟是不是必要的？还有，由于要用模长并表示概率，模长就得小于1，而两个模长小于1的向量加起来后模长不一定小于1，因此需要用函数进一步压缩，这个做法的主观性太强。这也许需要借助流形上的分析工具，才能给出更漂亮的解决方案，或者也可以借鉴一下量子力学的思路，因为量子力学也存在波函数相加的情况。

实践角度来看，Capsule显然是太慢了。这是因为将聚类的迭代过程（动态路由）嵌入了神经网络中。从前向传播来看，这并没有增加多少计算量，但从反向传播来看，计算量暴增了，因为复合函数的梯度会更加复杂。

weixin_44179676

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
胶囊网络笔记

胶囊网络笔记胶囊胶囊https://spaces.ac.cn/archives/4819这篇文章真的太棒了一个向量，向量的模长代表概率，向量的分布代表着一定的方向，在计算loss时是使用模长计算，因此允许了向量内部的不同，从而保证鲁棒。底层的胶囊和高层的胶囊构成一些连接关系可以理解为底层胶囊使用底层的初级特征做分类，高级胶囊将多个分类的结果聚集整合起来。通过一些实验，此squash函数...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。