Paper reading: Segment Everything Everywhere All at Once

最新推荐文章于 2024-09-10 17:04:53 发布

我是家家

最新推荐文章于 2024-09-10 17:04:53 发布

阅读量185

点赞数

文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yihaizhiyan/article/details/131064003

版权

受启发于大语言模型中基于提示的通用接口，提出SEEM，一个可提示的、交互的模型，用来在图像中一次性地分割任何地方的任何物体。四个需求：

1、多功能性，为不同类型的提示引入了多功能提示引擎，包括点、框、涂鸦、掩码、文本和其他图像的引用区域；

2、组合型：通过学习视觉和文本提示的联合视觉语义空间来组成动态查询进行推理的组合性

3、交互性：通过结合可学习记忆的提示信息，通过掩码引导的交叉注意力来保留对话历史信息；

4、语义意识：通过使用文本编码器对文本查询和掩码标签进行编码来进行开放式词汇分割。

SEEM和SAM分割大模型之间的最主要的区别，在于是有语义感知的，能够适应于开放环境中。

网络框架图：

这一组截图太惊艳了，相当于能够很好地理解文本信息，进而有目标的分割。

同样可以处理视频目标分割任务：

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。