SAM2 基于视频接口的大图推理

shark_edge

已于 2025-04-11 17:40:14 修改

阅读量288

点赞数 3

文章标签：计算机视觉

于 2025-04-11 17:31:30 首次发布

本文链接：https://blog.csdn.net/weixin_44893748/article/details/147147062

版权

SAM2本身提供了图像，和视频分割的两个接口。因为所在行业的原因处理的遥感图像都是动辄几k甚至1，2w的大图像。显卡根本撑不住。按之前的做法一般是将图像切片然后，记录切片坐标最后在推理完成后拼合结果。先做了一个demo 是通过qgis 标记初矢量点作为提示点，然后由地理坐标转化成图上坐标输入模型，虽然在4-5k 大小的图像推理可以正常进行。想实现切片还是有些需要判定传递的提示点是否在切片内部，感觉整体有些复杂。看到SAM2 有视频推理接口，想到将图像切片做成视频帧，逐帧绑定提示点。索性整点花活吧！

哨兵2原图拆分后的结果

有一个小bug提一下

mat1 and mat2 must have the same dtype, but got BFloat16 and Float

# 收集掩码
    object_masks = {obj_id: [] for obj_id in objects.keys()}
    with torch.autocast(device_type="cuda", dtype=torch.bfloat16):# 添加这个解决bug
        for out_frame_idx, out_obj_ids, out_mask_logits in predictor.propagate_in_video(inference_state):
            for i, out_obj_id in enumerate(out_obj_ids):
                mask = (out_mask_logits[i] > 0.0).cpu().numpy().squeeze()
                object_masks[out_obj_id].append(mask)

简陋的graio界面