昨日,一位来自欧洲某大学的CV和DL领域的博士生匿名在Reddit上发帖写道,在他周围来自不同实验室和大学的一小群人中,有一些令人震惊的做法,这些做法与提交给顶级ML/CV会议的论文有关。这位发帖的博士生注意到,周围有一小群人(称为Group X)为通过会议的同行评审(peer review)而且夸大其研究结果。这张图则很好的诠释了夸大实验结果的后果: 这些来自 Gourp X 的人实际上并没有做很多的研究,他们只是通过结合现有的几篇论文提出一些看似直观的想法,然后快速实现这些在实践中可能不会起作用的算法(或者只实现其中的一小部分)。但是,他们却会花费大量的时间(长达3-4个月)「用心」地写论文 :Nice story, good english。论文设定了一个故事情节(storyline),使得论证的数量远远超过了它应该达到的水平。为了支持这些论证,他们夸大了实验的结果(包括一些被人为操纵的图表、数据等) ,以使它看起来更吸引同行审查。由于这些显而易见的原因,Group X 不开源他们的代码或数据。对此,有网友回复:「不公开代码和数据集是另一个促成这种行为的重要原因。有一些会议需要提交代码,但是很多作者用空的 GitHub repos 或者垃圾代码实现来绕过这些程序,如果你不花几个小时或者几天的时间仔细研究代码,你就无法运行」。「不过,一个好的基准没有那么难。只需将代码打包成一个简单的colab,并确保这个colab可以在几分钟内由计算机系新生运行即可。如果你使用的是大型模型,这可能会很棘手。然而,如果实验不能轻易复现,那么发表它们又有什么意义呢?」对于一些图像领域的论文来说,如果有0行代码演示它的功能,那作者就可以「花钱请人把论文实验的照片PS一下,没有人会知道」。这些人是利用了这样一个事实:计算机视觉是一个应用领域 ,实际上很容易提出模型、算法,而不需要做太多的理论/数学工作。Group X 会特别选择那些评审人员对夸大的结果不那么怀疑的主题和领域来发表论文。最令人担忧的是,这些论文中的很大一部分已经在顶级会议被接受,比如 :CVPR/ICCV/ECCV/BMVC等,有时也被作为 Orals。帖子的作者表示自己还和 Group X 的一些人谈论过这个问题,他了解到这些人对做研究一点也不感兴趣,他们读博士的唯一目的就是在一家薪水丰厚的公司找份工作。在大公司的机器学习相关的简历职位列表中,像「顶会一作优先」这样的要求可能是导致这些错误做法的原因。图:某公司招聘要求同样在管理层面上,参与这些出版物的主管或私营机构也间接支持这些做法。最后,作者还表示并不是要以偏概全,这仅仅只是基于他接触过的一小部分人而已,他也见过非常多对于研究充满热情的博士生和研究人员。对此,你是如何看待这种现象的呢?参考链接:https://www.reddit.com/r/MachineLearning/comments/l0oce8/d_witnessed_malpractices_in_mlcv_research_papers/
相关素材