使用Transformer模型进行计算机视觉任务的端对端对象检测

最新推荐文章于 2024-08-02 18:24:55 发布

人工智能研究所

最新推荐文章于 2024-08-02 18:24:55 发布

阅读量522

点赞数 1

分类专栏：人工智能之计算机视觉人工智能之NLP自然语言处理文章标签：深度学习计算机视觉人工智能 transformer

本文链接：https://blog.csdn.net/weixin_44782294/article/details/131041185

版权

人工智能之计算机视觉同时被 2 个专栏收录

62 篇文章 1 订阅 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

人工智能之NLP自然语言处理

36 篇文章 2 订阅 ¥79.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了如何使用DETR模型进行端对端对象检测，该模型基于Transformer，由Facebook发布。DETR简化了检测流程，通过全局推理提高了效率，不同于传统方法如Faster R-CNN。DETR模型能够考虑图像中对象之间的关系，提高预测准确性。此外，文中还展示了DETR模型在PyTorch中的实现和结果可视化。

摘要由CSDN通过智能技术生成

Transformer模型是google团队在2017在论文attention is all you need中提出的一个用于NLP领域的模型，但是随着VIT模型与Swin Transformer模型的发布，把Transformer模型成功应用到计算机视觉任务中。

上期图文，我们使用hugging face的transformers模型进行了VIT模型的对象分类任务。本期我们再次分享一个成功把Transformer模型应用到计算机对象检测任务模型。此模型是Facebook发布的基于Transformer模型的端对端对象检测任务模型-- DETR（detect Transformer模型）。

DETR模型首先使用CNN卷积神经网络搜集图片的核心特征点，然后把这些特征点整合起来，通过embedding方法，把特征图片转换到特征向量空间。然后根据标准Transformer模型的编码器与解码器进行注意力机制的计算，最后把计算后的数据进行图片对象的分类，并根据检测到的位置信息，提供对象box区域，方便我们画图。