好久没写了,
心血来潮
好吧,怎么简单怎么来:
human pose regression by combining indirect part detection and contextual information - arxiv - 1710.02322
该论文的亮点在于重新用回了regression,而不是直接基于heat map的part detection方法。为什么regression是亮点?14年NIPS的DeepPose就是用regresssion来做pose的,打开了CNN做pose的大门,但是众所周知,直接regression的效果一般,被认为是sub-optimally的。但是,但是,但是,这篇论文却用了regression来做pose,效果非常接近基于heat map的part detection的效果,太叼了。
这样做,并不需要人为产生heat map的ground-truths,也不需要担心网络的stride过大导致heat map的resolution过小的问题。
虽然论文中给出了代码的repo,但是作者还没release,坐等吧。
看图说话,下面是模型框架,看上去是不是很简单,没错,网络模型是比较简单的,利用了Inception-V4