Data engine
自动生成大量的数据集
三个阶段
assisted-manual:公开数据集中,可能识别了部分,然后人工标注剩余物品
semi-automatic:利用物体检测+识别效果不好,手工标注
fully-automatic:全自动标注,标注一些重写训练,标注一些重新训练
网络架构
Image_encoder ——Vision Transformer(ViT)
Vison Transformer:特征提取enconder
将一个输入图片进行特征提取,然后输出特征向量,供后续进行处理
解决数据量大,然后输入全部的图像矩阵,从而带来的计算难度的问题
使用的何凯明大神,训练的一个ViT预训练模型MAE
Prompt encoder——用于快速人机交互
-
Prompts:
-
kind
-
Sparse(稀疏的):points(点),box(框),free-form text(文本)
-
dense(紧密的):mask(多点围成的区域)
-
-
disposed
-
points、box、mask做编码很容易
-
text encoder 用的是
CLIP
—自然语言处理相关的
-
-
Mask decoder——maskformer
The mask decoder efficiently maps the image embedding,prompt embeddings,and an output token to a mask
采用原有技术
-
Transformer decoder block
-
dynamic mask prediction head——maskformer
改进优化
-
prompt self-attention 提示文本自注意力机制 Transformer
-
cross-attention 交叉注意力机制
-
prompt-to-image/image-to-prompt
-
后续是经历一个MLP(多层感知机、全连接神经网络),然后计算损失