you only look once!!!
一、所需基本姿势
1、YOLO将图片分成S*S的grid cell,每个grid cell对应B个bounding box,论文S=7,B=2,故有98个bbox。
2、YOLO中每一个Object只对应一个中心点,该中心点只唯一出现在一个grid cell中
3、Object中心点落在的那个grid cell负责把该Object回归出,彻底不是选取proposal再看看这个合不合适的模式
二、TRAINING
如图输入为448*448*3,经过类似GoogLenet的只有1*1和3*3的卷积后,得到7*7*30的feature,显然7*7对应每一个grid cell,而30个channel呢?
如图,30个channel对应2个bbox的5个位置信息和confidence,confidence是它是否是Object的概率乘上最大的IoU(当有Object的中心点在该grid cell上,则Pr(Object)=1,否者为0);再加上20个class的feature。