中国小伙CVPR 18论文遭质疑：同行难复现，要求评议组撤稿

最新推荐文章于 2024-09-11 07:30:23 发布

量子位

最新推荐文章于 2024-09-11 07:30:23 发布

阅读量4.1k

点赞数

本文链接：https://blog.csdn.net/yH0VLDe8VG8ep9VGe/article/details/82920390

版权

安妮发自凹非寺
量子位出品 | 公众号 QbitAI

640?wx_fmt=jpeg

国庆前的这场学术风波，比以往时候来得都猛一些。

昨天，ID为p1esk的网友在Reddit论坛提出，国际顶会CVPR 18的接收论文Perturbative Neural Networks（扰动神经网络）有点不对劲。

这篇论文自称提出了一种轻量且高效的模型，可以当作卷积神经网络的替代品，且准确率高达90.53%。在多次动手实操之后，网友p1esk发现得到的最高准确率仅为85.91%，结果根本无法复现。

论文复现难，这个存在于整合学术圈的普遍且严重的问题，让整个行业讨厌和头大。浪费了别人大把时间，只能闻但吃不到，不知困扰着多少长江后浪。

p1esk觉得，这篇几乎可以宣判无效的论文不能再浪费大家时间了，应该被即刻撤回。

仿佛往论坛深水区投下一颗炸弹，该学术风波顷刻间引发了大量讨论。

“打折”的准确率

问题的焦点，就在论文提出的准确率计算方法上。

在论文Perturbative Neural Networks中，研究人员成提出的CNN替代品扰动神经网络（PNN），消除了传统意义上的卷积，并将这种响应计算为一种加权线性组合，同时输入了非线性激活的加性噪声（additive noise）扰动。

640?wx_fmt=png

论文Perturbative Neural Networks

地址：https://arxiv.org/abs/1806.01817

论文作者通过分析和实践，证实了扰动层能有效替代传统的卷积层，在MNIST、CIFAR-10、PASCAL和ImageNet等视觉数据集中测试时，参数较少的PNN和标准CNN的运行效果相当。

640?wx_fmt=png

看到PNN模型方法新颖、结果优异、还提供了相关代码，网友p1esk觉得很有意思，也按照所说的方法尝试复现。在GitHub上，小哥分享了自己的复现结果。

复现前，p1esk先分析了论文作者的原始实现，发现在第一层网络中，原始实现应用了常规的卷积，但其余层用了大小是1的扇出，也就是每个输入通道都用了单一噪声掩膜（noisy mask）。

随后，p1esk发现原始实现的最大问题：精确度计算方法不正确。作者没有在测试数据集的全部示例上计算准确率，而是选择在每个批次中分别计算，并且应用的了平滑权重的神经网络。原论文作者计算的准确率，实际上＝0.7*上个批次的准确率+0.3*当前批次的准确率。

一来二去，p1esk和原作者的实现结果就不太一样了：

640?wx_fmt=png

当模型运行CIFAR-10数据集中的noiseresnet18时，原论文中的准确率为90.53%，而p1esk用修正后的方法得到的最高准确率为85.91%。

那么问题来了，这个开始就被误算的方法，到底有没有用？网友p1esk又进行了大量实验，想验证如果用噪声掩膜扰乱输入，是否会得到更好的结果。

为此，小哥搞了三个模型：一个减少了滤波器数量的基准模型，让参数数量和PNN差不多；一个除第一层外所有层都使用无噪音1×1卷积的模型；和一个除第一层外，所有层都用了扰动版1×1卷积的模型。

一番操作之后，小哥发现添加噪声掩膜比无噪声的等效“残缺”ResNet的改进不超过1%，无论如何应用噪声掩膜，使用1×1滤波器都会导致准确率下降。

640?wx_fmt=png

最后，p1esk得出结论：论文中准确度计算方法不正确，且作者提出的方法无效，故论文没有意义。

不过目前来看，这些还仅是p1esk的一面之词，此时目前还尚无定论。

引发热议

p1esk的复现过程引来了多人围观，对于这件值得讨论的学术风波，大家的看法并不一致。

最先一波评论基于事件本身，不少网友感慨论文“难以复现”是当下科研面临的一大难题，自己深受其害。

也有针对p1esk本身质疑的质疑。网友alexmlamb研究了p1esk的复现方法后，觉得“PNN无效”的结论有些站不住脚，且复现中给出的实际准确率和报告中提到的准确率在100次迭代时相差并不多。

好消息是，事发之后，被质疑的团队没有装聋作哑，也很快站出正面回应了p1esk的质疑。

论文一作Felix Juefei-Xu（Reddit ID：katanaxu，后称Xu同学）首先感谢了网友为实现PNN做出的努力和提醒，目前团队正在彻底分析这项工作，在能提供进一步回应之前，完全肯定团队的工作。

对于网友指出的验证方法的问题，Xu同学承认了这中间的疏忽，并表示如果确实结果相差太多，团队会收回论文：

“在我们的可视化工具中默认了平滑函数是一个疏忽，目前我们已经修复了它，正在重新运行整个实验。我们将用更新后的结果更新arXiv论文和Github。如果实验结果表明我们的结果确实比CVPR版本中报道的差得多，我们将收回论文。”

针对网友的复现，Xu同学也提出了自己的看法：“综上所述，根据我的初步评估，在他的实现中，只要选择合适的#滤波器、噪声等级、优化方法，目前可以在CIFAR-10上实现90~91%的效果，而他选择的上述参数是85~86%。不过在没有看到他更多（的过程）时，还是先不多说了。”

640?wx_fmt=png

△ 一作回复原文

中国学生

也是Xu同学的回应比较真诚和理性，随后赢得了不少网友的好评。

网友toadlion表示，虽然结果有误听起来让人有些失望，但一作的回应讲道理，是种正确的处理方式。

网友kugkfokj也赞同作者的回复，不过他觉得即使是结果有误也不应该收回论文。“科学不仅仅包含什么是正确有用的，也包含什么是行不通的，两者同样重要。”他说。

640?wx_fmt=png

“每个人都会犯错误，如果可以节省他人的时间，那这个错误就是有价值的。”网友mikolchon说。

就连发帖提出质疑的网友p1esk，也赞扬了Xu同学等人的行为，他认为，作为科研人员，把自己的代码分享，本身就是学术圈里值得提倡的事情，而准确率计算方法的错误更像是一个“诚实的失误”。

640?wx_fmt=png

其实，这个不避讳质疑的团队，第一作者还是一个中国小伙。

这篇论文来自CMU和密歇根州立大学的Felix Juefei-Xu，Vishnu Naresh Boddeti和Marios Savvides三人。

一作Xu同学是一名中国小伙。本科毕业于上海交通大学的电气工程专业，在CMU读研深造后，继而在CMU攻读电气与计算机工程博士学位，师从Marios Savvides教授，目前在CMU CyLab生物识别中心继续做研究。

640?wx_fmt=png △ Marios Savvides教授

一路走来，Xu同学也属于“别人家的孩子”。

在读高中时，Xu同学参加了当时热播的高中智力竞赛节目《SK状元榜》，获得了周冠军。次年，获得了上海优秀普通高中毕业生的荣誉称号。

640?wx_fmt=jpeg △ 春妮主持的电视节目《SK状元榜》

随后，无论是全国大学生英语竞赛获奖，还是在外深造时在IEEE系列会议上获得的各类最佳论文，一路走来，Xu同学也算走得踏实。

One More Thing

一边是论文的复现困难，一边是作者的真诚回应。不知此事，你怎么看？

— 完 —

加入社群

量子位AI社群28群开始招募啦，欢迎对AI感兴趣的同学，在量子位公众号（QbitAI）对话界面回复关键字“交流群”，获取入群方式；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号（QbitAI）对话界面回复关键字“专业群”，获取入群方式。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

量子位

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

中国小伙CVPR 18论文遭质疑：同行难复现，要求评议组撤稿

安妮 发自 凹非寺量子位 出品 | 公众号 QbitAI

“打折”的准确率

引发热议

△ 一作回复原文

中国学生

One More Thing

安妮发自凹非寺
量子位出品 | 公众号 QbitAI