今年CVPR,著實有點魔幻瞭!先是韓國首爾大學AI團隊的Oral,即前4%的優秀論文,被曝出涉嫌抄襲10篇論文。有的地方,連一個單詞都沒有變。事發當日即登上韓國頭條,國內外網友震驚:搞到CVPR上也太行瞭吧。
更多人爆料,這個團隊抄襲已經不止一次,基本操作瞭屬於是。
結果這一波還未結束,另一波又開始瞭。
IBM發表在CVPR上的論文TableFormer被指抄襲國內2021年發表的一篇文章。
爆料指出,IBM論文剽竊瞭他們的方法,包括預處理、可視化、推理、系統解決方案等,但並沒有引用他們的論文。
抄襲事件頻出,於是乎不少網友感嘆:這屆CVPR太魔幻瞭。
甚至還有人直接在知乎上列出瞭這麼一個問題:
大傢一起來揭發吧。CVPR 2022都有哪些論文是抄襲的?
韓國團隊被曝不止一次抄襲
先來看引發眾人關註的韓國團隊抄襲事件。
在通訊作者尹盛老和一作金某的最新公開回應中,都表示這次抄襲屬於一作的個人行為,和團隊其他人無關。
尹盛老解釋說:
團隊其他合著者把各自的部分發給瞭一作,但是他最後卻沒有使用,而是抄襲瞭別的論文。
他還補充道,現在一作本人其他兩篇正在審閱的論文也都被撤回瞭。
不過,網友們順藤摸瓜後發現,該團隊似乎不止這一篇論文存在抄襲嫌疑。
比如這篇:《Towards Fast and Accurate Object Detection in Bio-Inspired Spiking Neural Networks Through Bayesian Optimization》。
檢測軟件顯示,它有40%的抄襲嫌疑,文中有27處表達與之前研究高度相似。
還有另外一篇《Energy-aware Placement for SRAM-NVM Hybrid FPGAs》,也被發現存在類似問題。
通訊作者都是尹盛老。
與此同時,還有人指出尹教授的實驗室規模很大。
博士生就有37位,加上碩士和博士後,實驗室共有51位學生由尹盛老指導。
這也讓有人擔憂,一位教授是否能同時指導好這麼多學生,他們的實驗和論文質量是否會受到影響。
而從事件爆發的起點——油管曝光視頻的內容來看,這次涉嫌抄襲的論文中,很多地方都是原封不動地搬運此前研究的表述。
涉及到的部分有Introduction、Preliminaries、Method等。
甚至有的地方是一字不落的copy。
全文出現的抄襲段落多達25處,曝光視頻展示問題就花瞭7分多鐘。
被抄襲的論文很多被NeureIPS、AAAI等頂會接收,其中還有幾位一作是韓國人。
這也難怪上傳曝光視頻的人,會給視頻起一個如此“刺眼”的標題:
E2V-SDE or: How I Learned to Stop Worrying and Love Plagiarism。
E2V-SDE又名:我是如何毫不擔憂並愛上抄襲的。
這裡的E2V-SDE,就來自尹盛老團隊此次被CVPR 2022接收的論文標題。
現在,隨著事件的不斷發酵,尹盛老團隊還引發瞭韓國網友的群憤。
要知道,尹盛老是韓國人工智能領域的權威專傢,來自首爾大學人工智能研究所。
今年6月,他才剛剛被韓國科學技術部評選為“首席研究員”,每年享有大約8億韓元(折合人民幣約416萬)的科研經費。
但如今,他的團隊卻深陷抄襲醜聞。
有人留言表示,希望相關單位能夠嚴肅處理這件事情,讓相關研究人員退出學術界。
過去30年裡,很多人不分晝夜地努力研究,才讓韓國能在CV頂會裡發表更多論文,而他們的行為卻如此過分!
實際上,韓國在CVPR 2022中的成績確實值得關註,僅首爾大學就有25篇論文入選。
有人直接說,這件事太給韓國丟臉瞭。
而更為深層的原因還包括,韓國有聲音擔心,這次事件會是“黃禹錫事件”的二度上演。
2005年,曾任首爾大學獸醫學院首席教授、一度被視為韓國民族英雄的黃禹錫,被揭發偽造多項研究成果。
其在《Science》上發表的幹細胞研究均屬子虛烏有。
2009年,黃禹錫被判處2年徒刑,緩刑3年。
IBM被指抄襲
就在韓國抄襲事件這邊還在發酵,IBM也被曝出其入選的CVPR論文涉嫌抄襲。
來自平安科技的研究員,列出瞭九大證據,涉及方法論、預處理、後期處理、推理、文字行檢測與識別等內容,目前已寫成郵件發給瞭CVPR 2022 program chairs。
首先從核心方法論來看,兩者都是表格內容識別任務,取名也類似,一個是TableMASTER,一個是TableFormer。
其中,兩者的圖像輸入均為448*448。前者(TableMASTER)訓練長度為500,而後者(TableFormer)則改成瞭512。
爆料者表示,裡面很多痕跡都可以看出,IBM是在他們開源的預訓練模型上跑的,隻是改瞭些細節。
而最隱晦的也是直呼“最無恥”的,還要屬文本單行檢測這塊,爆料者稱:他們隻改變瞭顏色。
一般而言,官方提供的數據中每個表格都是多行的,不利於之後的訓練。
於是,研究團隊對3000張圖像進行瞭重標註, 將連在一起的多行拆分成單行。
而IBM的PDF Cells則是直接拿他們在GitHub上訓練好的模型進行預測。
除此之外,根據爆料者描述,IBM還將他們的3條規則根據開源的代碼,強行拆成9條規則。
目前,IBM方也還沒有任何回應。網友也持有各種意見。
有人認為,這看起來像個人意見,作者有點情緒化。
還有網友則看完整個證據,很難相信IBM是原創文章,建議直接向CVPR項目委員會投訴。
One More Thing
最後,再來簡單回顧一下今年有點魔幻的CVPR。
CVPR 2022投稿量高達8161篇,相比於去年7093分提交增長瞭15%,其中44.59%的作者來自中國。
其中,共有2064篇論文被接收,接收率為25.28%。在被接收的論文中,有342份被選為Oral。
最佳論文頒向瞭ETH Zurich、華盛頓大學、佐治亞理工學院、捷克理工大學等機構的研究者。
而最佳學生論文獎,則是頒給瞭達摩院的實習生。
李飛飛教授獲得瞭本次大會的 Thomas S. Huang紀念獎。
除此之外不得不承認,今年CVPR確實熱鬧,畢竟有近6000人來到線下參會。
於是乎,另一個魔幻的事情發生瞭——不少人因此染上新冠。
網友還提問:到底是CVPR接收率高還是感染新冠率高?
參考文獻:
[1]https://www.reddit.com/r/MachineLearning/comments/vlpnuw/d_ibm_zurich_research_plagiarised_our_paper_and/
[2]https://twitter.com/e2v_sde_parody/status/1540087877308239874
[3]https://arxiv.org/pdf/2105.01848.pdf
[4]https://arxiv.org/pdf/2203.01017.pdf
[5]https://www.youtube.com/watch?v=UCmkpLduptU&t=95s
[6]https://www.fmkorea.com/4760102853
[7]https://www.zhihu.com/question/539432448/answer/2543861341
[8]https://www.hankyung.com/society/article/2022062674031
[9]https://www.reddit.com/r/MachineLearning/comments/vjkssf/d_how_to_copy_text_from_more_than_10_previously/