![](https://img-blog.csdnimg.cn/20201014180756928.png?x-oss-process=image/resize,m_fixed,h_64,w_64)
深度学习
文章平均质量分 81
十有久诚
知道的越多,不知道的越多
展开
-
知识蒸馏与应用
现在谁家不整个大模型,条件好了吃喝都不差钱了,大模型一般都效果好但是应用可能麻烦点,费资源,可能下游任务设备一般般,那咋整?那你就用小一点的模型呗,比如resnet152用不了那咱们就用resnet18也行但是现在咱们要耍无赖,既要用小的18层的也要让它效果尽可能进阶152的原创 2023-12-10 19:57:55 · 379 阅读 · 1 评论 -
论文解读 BEIT: BERT Pre-Training of Image Transformers
核心思想:主要两个视角view(两件事)2.data-hungry issue 需要大量有标签的数据。原创 2023-11-12 13:54:49 · 92 阅读 · 0 评论 -
论文解读:Axial-DeepLab: Stand-Alone Axial-Attention forPanoptic Segmentation
为什么transformer一开始都有CNN:降低H、W,降低self-attention计算规模O(特征点的个数^2,即(H*W)^2)Stand-Alone Self-Attention 就是不通过CNN下采样,直接使用transformer,但是这样计算量会比较大,如何解决这个问题,如何解决该问题原创 2023-11-30 19:53:07 · 1263 阅读 · 1 评论 -
论文解读:EfficientViT-提高吞吐量
EfficientViT:通过多种手段,在准确率基本保持不变的同时,来不断提供整个模型的吞吐量原创 2023-12-04 16:46:49 · 1074 阅读 · 1 评论