SAM(Segment Anything Model)网络结构

Data engine

自动生成大量的数据集

三个阶段

assisted-manual:公开数据集中,可能识别了部分,然后人工标注剩余物品

semi-automatic:利用物体检测+识别效果不好,手工标注

fully-automatic:全自动标注,标注一些重写训练,标注一些重新训练

网络架构

Image_encoder ——Vision Transformer(ViT)

Vison Transformer:特征提取enconder

将一个输入图片进行特征提取,然后输出特征向量,供后续进行处理

解决数据量大,然后输入全部的图像矩阵,从而带来的计算难度的问题

使用的何凯明大神,训练的一个ViT预训练模型MAE

Prompt encoder——用于快速人机交互

  • Prompts:

    • kind

      • Sparse(稀疏的):points(点),box(框),free-form text(文本)

      • dense(紧密的):mask(多点围成的区域)

    • disposed

      • points、box、mask做编码很容易

      • text encoder 用的是CLIP—自然语言处理相关的

Mask decoder——maskformer

 The mask decoder efficiently maps the image embedding,prompt embeddings,and an output token to a mask

采用原有技术

  • Transformer decoder block

  • dynamic mask prediction head——maskformer

改进优化

  • prompt self-attention 提示文本自注意力机制 Transformer

  • cross-attention 交叉注意力机制

    • prompt-to-image/image-to-prompt

后续是经历一个MLP(多层感知机、全连接神经网络),然后计算损失

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值