SAM2本身提供了图像,和视频分割的两个接口。因为所在行业的原因处理的遥感图像都是动辄几k甚至1,2w的大图像。显卡根本撑不住。按之前的做法一般是将图像切片然后,记录切片坐标最后在推理完成后拼合结果。先做了一个demo 是通过qgis 标记初矢量点 作为提示点,然后由地理坐标转化成图上坐标输入模型,虽然在4-5k 大小的图像推理可以正常进行。想实现切片还是有些需要判定传递的提示点是否在切片内部,感觉整体有些复杂。看到SAM2 有视频推理接口,想到将图像切片做成视频帧,逐帧绑定提示点。索性整点花活吧!
哨兵2原图拆分后的结果
有一个小bug提一下
mat1 and mat2 must have the same dtype, but got BFloat16 and Float
# 收集掩码
object_masks = {obj_id: [] for obj_id in objects.keys()}
with torch.autocast(device_type="cuda", dtype=torch.bfloat16):# 添加这个解决bug
for out_frame_idx, out_obj_ids, out_mask_logits in predictor.propagate_in_video(inference_state):
for i, out_obj_id in enumerate(out_obj_ids):
mask = (out_mask_logits[i] > 0.0).cpu().numpy().squeeze()
object_masks[out_obj_id].append(mask)
简陋的graio界面
水体分割结果