Vision Transformer for Object Detection
本文作者:
BIT可达鸭
禁止转载
Encoder-Decoder 简介:
机器翻译是序列转换模型的一个核心问题,其输入和输出都是长度可变的序列。为了处理这种类型的输入和输出,我们可以设计一个包含两个主要组件的结构。第一个组件是一个 编码器(encoder):它接受一个长度可变的序列作为输入,并将其转换为具有固定形状的编码状态。第二个组件是 解码器(decoder):它将固定形状的编码状态映射到长度可变的序列。这被称为 编码器-解码器(encoder-decoder)结构:
同样我们可以将Encoder-Decoder结构类比到视觉算法中,例如FCN、UNet等语义分割模型中encoder对应卷积操作,而decoder则对应上采样操作: