改进YOLO系列 | EfficientViT:用于高分辨率密集预测的多尺度线性注意力 | ICCV 2023

62 篇文章 808 订阅 ¥199.90 ¥99.00

本改进已融合到 YOLOv5-Magic 框架

在这里插入图片描述
高分辨率密集预测使许多吸引人的现实世界应用成为可能,例如计算摄影、自动驾驶等。然而,庞大的计算成本使得在硬件设备上部署最先进的高分辨率密集预测模型变得困难。本文介绍了EfficientViT,一种新的高分辨率视觉模型系列,具有新颖的多尺度线性注意力。与依赖于重型 softmax 注意力、硬件效率低下的大核卷积或复杂的拓扑结构以获得良好性能的先前高分辨率密集预测模型不同,我们的多尺度线性注意力仅通过轻量级和硬件高效的操作实现了全局感受野和多尺度学习(高分辨率密集预测的两个理想特征)。因此,EfficientViT在各种硬件平台上都能显著提高性能,并实现了明显的加速,包括移动 CPU、边缘 GPU 和云 GPU。在Cityscapes上没有性能损失的情况下,我们的EfficientViT相比SegFormer和SegNeXt分别实现了高达13.9×和6.2×的 GPU 延迟降低。对于超分辨率,EfficientViT相比Restormer提供了高达6.4×的加速,同时在 PSNR 上获得了0.11dB 的增益。对于 Segment Anything,在 A100 GPU 上,EfficientViT的吞吐量提高了48.9×,同时在 COCO 上实现了略微更好的零样本实例分割性能。

代码地址:https://github.com/mit-han-lab/efficientvit
论文地址:

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

迪菲赫尔曼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值