前言
最近阅读了论文DenseASPP for Semantic Segmentation in Street Scenes。这篇paper影响力挺大,而且内容也很有现实作用。所以基于该paper有挺多的再创作。当然也意味着有很多参考资料。这样阅读该paper就会容易点。
个人疑虑
本人在看论文时,对3.2.2 Larger receptive field部分的公式6和公式7有疑虑。
我本人算出来的公式6结果是49,公式7结果是121.同时DenseASPP(3,6,12,18,24)的结果我算出来是127.
该部分是关于感受野计算的。我的过程如下:
基准还是3X3的卷积核,即K=3:
d=3时,K=(3-1)*(3-1)+3=7
d=6时,K=(6-1)*(3-1)+3=13
d=3和d=6组合:K1=7,K2=13,K=K1+K2-1=19
d=12时,K=(12-1)*(3-1)+3=25
d=3与d=12组合,k1=7,K2=25,K=7+25-1=31
d=3,d=6与d=12组合 ,先算d=3与d=6组合得K=19,再算d=12,K=25,故组合后K=19+25-1=43
d=18时,K=(18-1)*(3-1)+3=37
d=24时,K=(24-1)*(3-1)+3=49
故R3,6+R3,12-1=13+25-1=37
((R3,6+R3,12-1)+R3,18-1)=37+37-1=73
(((R3,6+R3,12-1)+R3,18-1)+R3,24-1)=73+49-1=121
故DenseASPP(6,12,18,24)的最大的感受野是:Rmax = (((R3,6+R3,12-1)+R3,18-1)+R3,24-1)=121
本部分计算所用公式为论文中原文的公式4和公式5:
一直到R3,24之前,都是符合论文给出的结果的:
本人一直在谷歌和bing等查询很多博客等资料,但是绝大多数人都是把论文翻译了一下,而且还是机翻:最显著的标志是关于感受野(receptive field),这一翻译是沿用医学神经的,但是机器翻译可能会变成接受域。我在很多博客下面看到同样的单词,有时候翻译成感受野,有时候又变成接受域。这种感觉和我以前本科看我们授课老师名义上翻译的(实际估计找研究生谷歌翻译的)书很像。前后同一单词非必要不应该出现翻译歧义,除非做标注。总之,我并未能从博客上发现多少有用的东西。只有在一篇评论区,有两位朋友提出自己的问题,他们观点和我一样,但是私信并未回复。所以我在该问题上卡了2天。
后记
在今天下午我请教了实验室的一位博士师兄,他是研究深度学习和自动驾驶的。对DenseASPP有所涉及,也在该部分发表过再创作论文。师兄对我的观点赞同。在2020年他的论文中的数据也是49和121。所以问题姑且告一段落。然后,其实个人建议这种问题遇到了也不必非要纠结,我有一位博士师兄能给我一个标准,如果没有较权威的人给标准的话,这种小问题就是糊涂账,建议跳过。
如果评论区有人了解该部分的情况,并有确定答案的话,请务必告知我。不胜感激。