昨天,国际人工智能学术圈曝出了一同严重的论文剽窃变乱,登上知乎热搜:
谷歌大脑钻研员于4月8日在集体博客发文,指出北京智源人工智能钻研院、清华大学等等单位早先协作颁发的综述论文“A Roadmap for Big Model”(大模型线路图)剽窃了他们的论文“Deduplicating Training Data Makes Languages Models Better”与其余论文,总计十余处。
动静一出,立刻在国际外的社交媒体上惹起了泛滥AI钻研者的关注与探讨。
因为该论文篇幅长达200页,波及的学者泛滥(一百位),因此,自剽窃动静从北京时间4月13日凌晨登上知乎热搜开始,AI科技评论编纂组就始终在尽量与多位涉事学者核实状况,以求尽量做到实在、主观、谨严的探讨。
毫无疑难,该论文在arXiv上颁发,作为单单由就职于中国钻研机构与高校的学者所协作撰写的钻研综述,论文被曝剽窃,必定会使中国的AI学术圈蒙羞。
多位学者向AI科技评论表现,这一剽窃事情对华人学者的名声形成了极大的负面影响。
这再次警示咱们的学者:学术诚信准则神圣不成侵略,应将论文写作标准不时铭刻在心,不要冲破科研的根本底线。
与此同时,咱们也需求做到感性剖析。论文剽窃被国内友人探讨与鞭挞,不是藤断瓜落,而是雪山崩塌。作为圈内的一分子,咱们不该抱着「吃瓜」的看客态度将此事潦草带过,也不该一杆子打翻一船人。廉正建立,人人有责。
追索真谛,本就是科研的态度。 1、论文详情
首先让咱们往返顾一下事情的通过:
往年3月底,一篇由19家机构、100位中国学者联结署名颁发在 arXiv 上的200页论文惹起了国际外人工智能畛域的普遍关注。
这篇论文是一篇钻研综述,题为“A Roadmap for Big Model”(大模型线路图),次要环抱近些年来人工智能畛域衰亡的大范围言语/视觉模型(如GPT-3)钻研进行了深化归结与探讨。
另外,该论文在首页即标明:大模型的线路图由清华大学的唐杰传授设计,分为十八节,包孕16篇章节,16篇章节中的每一个节由一名(部份为两位)通信作者组织。
论文地址:http://arxiv.org/pdf/2203.14101.pdf
从文章的登程点(增进大范围人工智能模型的钻研)、协作作者数量与署名机构的权威性来看,这篇钻研综述对AI钻研者均有极大的浏览吸引力。Google Brain的钻研员Nicholas Carlini就是其中一员。
但随即,4月8日,Nicholas在他的集体博文发文,称“A Roadmap for Big Model”一文剽窃了他参预的论文“Deduplicating Training Data Makes Language Models Better”,并且,他还指出,这篇论文最少还剽窃了十余篇其余论文。
需求留意的是,AI科技评论比较了“A Roadmap for Big Model”与“Deduplicating Training Data Makes Language Models Better”等多篇文章,并借助论文查重器,发现Nocholas 指出的10处反复来自于多篇不同文章,而知乎的问题让人觉得Nicholas在本人的一篇文章里找出了10处反复。
Nicholas的文章颁发后,当即在Twitter上惹起了不少留意。因此,在4月十二日(北京时间4月13日),他又在集体博客中作了更新阐明:
没想到这篇文章收回后遭到了这么多关注……我恳请:不要将这件事变为一场盖帽子的政治虐待。我见过一些人由于对相似事件发声而致使相干人员当即被辞退或被阻止使用arXiv等等。我不会随意判定这篇论文(大模型线路图)是复制自多个来源。在不理解实际的状况下,我不想做判别。或许一些资格较浅的作者本意是好的,以为有了引文就能间接复制文本了。这傍边或许有来自下层的压力,让一些先生认为要定时交稿,他们的独一选择是偷工减料;而关于资深作者来讲,他们可能浏览了文本、以为它读起来很公道,并只是对文本进行了微调,而不知道文本的来源。症结是「咱们不知道」。这篇论文的协作者有100位,甚么状况都是有可能的。 2、核对与声明
紧跟推特探讨,知乎网友也开始关注到此事。4月13日,题为「如何对待智源、清华等单位论文 A Roadmap for Big Model 中少量段落被指涉嫌剽窃?」的话题冲上热搜,当即引来了超过500万的关注度。4月13日一早,当事方智源即在知乎回复,表现留意到了对该论文的质疑,正在对相干状况进行核实,并尽快通报无关停顿。