项目实训（五）-研究SAM模型

yyyyyyyx_

已于 2024-05-31 10:32:13 修改

阅读量335

点赞数 6

文章标签：深度学习人工智能

于 2024-05-29 22:41:44 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/yyyyyyyx_/article/details/139307423

版权

一、SAM模型的研究

在上文中，我们已经对SAM模型做过了基础的研究，这里我们对SAM模型的代码进行一下研究以便于我们之后可以更好地对SAM进行处理。

build_sam.py:

这个文件包含三层的封装,最外层是sam_model_registry，它提供了统一的接口，用来选择vit_h,vit_l,vit_b,默认使用vit_h

这段代码是sam 模型构建的统一代码，主要构建一个image_encoder,prompt_encoder,mask_decoder,以及在有权重的情况下加载sam的权重

Sampredictor.py:

首先确认输入是否是RGB或BGR三通道图像，将BGR图像统一为RGB，而后并对图像尺寸和channel顺序作出调整满足神经网络的输入要求。

set_torch_image：用padding填补缩放后的图片，在 H 和 W 满足神经网络需要的标准尺寸，而后通过image_encoder模型获得图像特征数据并保存在self.features中，同时self.is_image_set设为true。注意image_encoder过程不是在predict_torch时与Prompt encoder过程和Mask decoder过程一同执行的，而是在set_image时就已经执行了

predict对输入到模型中进行预测的数据(标记点 apply_coords 和标记框 apply_boxes )进行一个预处理，并接受和处理模型返回的预测结果。

predict_torch：输入数据经过预处理后输入到模型中预测结果。Prompt encoder过程和Mask decoder过程是在predict_torch时执行的。

get_image_embedding：获得图像image_encoder的特征。

关注

6
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
项目实训（五）-研究SAM模型

set_torch_image：用padding填补缩放后的图片，在 H 和 W 满足神经网络需要的标准尺寸，而后通过image_encoder模型获得图像特征数据并保存在self.features中，同时self.is_image_set设为true。这个文件包含三层的封装,最外层是sam_model_registry，它提供了统一的接口，用来选择vit_h,vit_l,vit_b,默认使用vit_h。get_image_embedding：获得图像image_encoder的特征。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。