學術造假有GPT-4,變得更容易。這兩天,一篇刊登在Nature上的新聞表示,GPT-4生成的造假數據集,第一眼還真不一定看得出來。除非請來業內專傢仔細對數據集進行評估,才能發現個中細節的不合理性。
這個新聞的來源是一篇發表在JAMA Ophthalmology上的論文。
論文使用GPT-4為一項醫學學術研究生成一個假數據集,發現它不僅能創造出看似合理的數據,甚至還能用來準確支撐錯誤的論文觀點。
對此,有網友表示十分理解:
大模型最重要的能力就是生成“看似合理的文本”,因此它非常適合幹這活兒。
還有網友感慨:技術“有良心”的程度,也就和用它的研究人員一樣。
所以,GPT-4創造的假數據究竟長啥樣?
GPT-4學術造假有一手
先來看看GPT-4是怎麼生成假數據的。
具體來說,研究人員采用GPT-4的高級數據分析(ADA,原代碼解釋器)功能,來生成一個假數據集。
這個過程中,研究人員給GPT-4提供一些專業知識和統計學要求,讓它生成的數據看起來更加“合理”。
第一步,給GPT-4輸入一系列數據要求。
研究人員先給GPT-4提供一系列詳細的提示詞,要求它創建一個關於圓錐角膜(keratoconus)眼部疾病患者的數據集。
圓錐角膜是一種疾病,會導致角膜變薄,導致註意力受損和視力不佳。
目前治療圓錐角膜疾病的方式主要有兩種,一種是穿透性角膜移植(PK),另一種是深板層移植(DALK)。
在沒有任何實質性證據的情況下,研究人員讓GPT-4捏造一組數據,支撐DALK比PK效果更好的觀點。
隨後,再設定一系列統計標準,如要求GPT-4生成的術前和術後數據產生統計學上的顯著差異。
第二步,就是生成數據。
這個過程中可能會由於GPT-4字數限制,導致答案生成暫停,通過“繼續”提示就能恢復生成過程。
最終,GPT-4成功生成包含160名男性和140名女性患者的數據集,並做出一組支撐DALK比PK效果更好的數據。
由GPT-4生成的假數據集長這樣,表格1是關於分類變量的數據,包括患者性別、手術類型、免疫排斥等情況:
表2是關於連續變量,包括術前術後的視力矯正情況等:
論文作者之一Giuseppe Giannaccare博士表示,如果非常快速地查看這個數據集,很難識別出它其實“不是人做的”。
專傢審查才能發現
為驗證GPT-4做出來的數據是否真的令人信服,Nature特意請來英國曼徹斯特大學生物統計學傢傑克·威爾金森(Jack Wilkinson)和同事Zewen Lu,來檢查數據可信度。
檢查結果表明,許多捏造出的患者在性別、名字匹配度上就有問題(例如Mary的性別一欄是男性一樣)。
然後,一些數據之間的相關性也不高,包括術前和術後視力測量與眼部成像檢查(eye-imaging test)之間的數據相關性等。
最後,患者的年齡也設置得不同尋常。
在檢查之後,用GPT-4生成假數據集的研究人員也承認,大模型在生成數據集上還存在有缺陷的地方。
但傑克·威爾金森(Jack Wilkinson)依舊對結果表示擔憂:
一旦知道自己“哪裡露餡”,AI很容易就能糾正它,並生成更加具有說服力的結果。
有網友認為,這篇文章最大的意義並不在於證明“GPT-4有幻覺”;
更重要的是,它證明GPT-4生成看似合理的數據集“非常容易”,也算是一種對期刊的警告(記得嚴格審稿!)。
不過,也有網友感覺研究意義不大,因為即使沒有ChatGPT這樣的工具,真想造假的學者也能很容易偽造出一套數據。
One More Thing
此外,這兩天一段關於ChatGPT的視頻在抖音上也是火得不行。
視頻中,終於畢業的歪果仁小哥直呼“感謝ChatGPT幫助我完成所有作業和考試”(手動狗頭)