“2處屬於抄襲,4處引用不規范。”“相關責任人均已主動離職。”“大模型研究中心部門重組。”……一篇名為ARoadmapforBigModel、由百人聯合完成的綜述報告,因涉嫌抄襲在國內外學術圈引發不小的關註。對此,涉事單位北京智源人工智能研究院,通報事件調查後的最新結果。
除剛才提到的幾點外,通報還指出擔負這次“抄襲門”事件的主要組織責任人,是智源大模型研究中心人員。
那麼引發國內外熱議的學術抄襲事件背後,到底發生什麼?
2處抄襲,4處引用不規范
此次“抄襲門”的焦點,即這篇綜述報告是由智源研究院大模型研究中心牽頭,並邀請國內外19個機構共100位科研人員撰寫。
根據通報的介紹,綜述共由16篇獨立專題文章組成。
除第12篇之外,每篇文章都都有其對應的撰寫作者和通訊作者。
而一個核心的問題便出在“協作”的過程中。
在通報裡的“組織失察責任認定”中,智源研究院表示:
智源大模型研究中心人員未嚴格按照學術出版規范的流程執行,在未與其他作者確認的情況下,於2022年3月26日將綜述報告上傳至arXiv,負有主要組織責任。
除此之外,這次的通報還對此前網友們對於綜述內容的質疑片段做回應。
首先,智源研究院承認有2處質疑片段屬於抄襲。
第一個抄襲片段是綜述報告第2篇文章的2.3.1節,存在共計179個單詞的多句重復。
根據《學術出版規范:期刊學術不端行為界定》中的“論文作者學術不端行為類型”規定:
文字表述剽竊:成段使用他人已發表文獻中的文字表述,雖然進行引註,但對所使用文字不加引號,或者不改變字體,或者不使用特定的排列方式顯示。
這個抄襲片段屬於這種規定的類型,而且也達到《IEEE出版物服務和產品委員會操作手冊》中,“對不同等級的抄襲行為進行判定的指南”的第5級。
判定的要點是:對一篇文章的主要部分逐字復制,雖有引註但缺乏清晰區分。
(註:抄襲共分5級,第1級最嚴重,第5級最輕微)
對此,通報表示,這篇文章中的兩位作者(均為智源大模型研究中心人員)分別擔負直接責任和失察責任。
第二處抄襲片段,是第8篇文章的8.3.1節,存在74個單詞的整句重復。
負責該段落的作者也是來自智源大模型研究中心的人員,文章發佈前未與通訊作者確認,應負直接責任。
對此,智源研究院表示:
上述兩名作者已經按照IEEE手冊的對應糾正措施向原作者致歉,並得到原作者諒解,履行應該承擔的相關學術責任。
除此之外,通報還表示,質疑片段中的4處屬於引用不規范。
它們分別是:
第10篇文章:存在少數重復文字
第12篇文章:12.2.3節存在共計36個單詞的重復,無整句重復
第14篇文章:14.2.2節一處多句63個單詞重復
第16篇文章:16.1節一處存在多句重復
並且智源研究院對於上述問題所對應的作者也做通報。
至於剩下的被質疑片段,通報表示“屬於規范引用”。
“相關責任人均已離職”
在通報的最後,智源研究院還公佈“處理和整改結果”。
首先,智源研究院要求可能存在問題文章的作者,向原作者做書面致歉,並且表示“均已得到原作者反饋和諒解”。
其次,由於“2處抄襲”的涉事人員均是來自智源研究院大模型研究中心的人員,因此通報決定:
重組該部門。
並且相關責任人均已主動離職。
而對於此次發表流程中存在的漏洞,智源研究院表示“已經整改論文發表流程,並修訂完善科研誠信與學風建設制度”。
與此同時,鑒於此次的事件,智源研究院還做後續的相關計劃:
智源研究院計劃與學界和業界合作,制定更嚴謹的文獻引用規范,開發論文和代碼開源檢測工具和系統,避免再次出現類似問題。
事件回顧
在看完最新通報之後,我們也來一起回顧下這件事情的始末。
4月8日,Google大腦研究員Nicholas Carlini發文指出:
A Roadmap for Big Model這篇文章抄襲自己最近發表的一篇論文。
他列舉10個抄襲得比較明顯的段落,並用綠色標出文字一致的部分。
Carlini發現這個情況的經歷也挺戲劇的:他的一個論文合作者本來想看看智源這篇文章有什麼值得學習的,結果有些部分越看越奇怪,最後發現原來該論文有些段落直接照搬他們自己的文章。
(吃瓜吃到自己頭上 .jpg)
同時通過收集數據初步核查,Carlini發現這篇論文還涉嫌抄襲十餘篇來自其他作者的論文。
在Carlini曝光智源這篇文章涉嫌抄襲後,很快引起國內外的廣泛關註。
連LeCun都評價道:
有網友認為這是一個團隊的學生寫的,這些學生可能不夠清楚學術規范,而其他大部分人都是掛個名。
還有人分享自己遇到過的學術不端的事情。
一位疑似涉事論文的作者出來爆料說,當時留給自己的撰稿時間非常緊迫,隻有一周多,他猜留給學生的時間可能更少,所以就出現大段照搬的情況。
想要解決問題,應該給作者們更充裕的時間和更多機會。
隨著事情發酵,智源官方也很快做出回應。
4月13日智源發佈《關於“A Roadmap for Big Model”綜述報告問題的致歉信》;兩天後又宣佈成立調查組,就涉事論文開展獨立調查。
7月15日,智源官方通報調查結果。
智源這次的排查機制,以及最後這種公開透明的結果公佈,也算是比較妥當的處理方式。
起初爆料智源論文涉嫌抄襲的Carlini後來也說,這篇文章受到的關註比自己的預期要多得多,所以懇請大傢不要把這變成一場“獵巫行動”。
Carlini反對有人提出的“此類事情件中所有相關人員應當立即被解雇、應該被arXiv封禁等”,他勸各位不要對這篇文章的作者們過分苛責,而應該把更多目光投在整個學術領域的風氣上。
也正如智源在此次通告中所述:
除上述智源研究院相關責任人外,綜述報告其他所有作者沒有抄襲及學術不端行為。在此對此次事件給這些作者造成的負面影響和困擾表示誠摯歉意!
再次誠摯感謝各界朋友對智源研究院的監督和批評!