GPT-4成學術造假“神器” 偽造數據又快又合理

2023-11-23 來自量子位發表於業界精選

學術造假有GPT-4，變得更容易。這兩天，一篇刊登在Nature上的新聞表示，GPT-4生成的造假數據集，第一眼還真不一定看得出來。除非請來業內專傢仔細對數據集進行評估，才能發現個中細節的不合理性。

這個新聞的來源是一篇發表在JAMA Ophthalmology上的論文。

論文使用GPT-4為一項醫學學術研究生成一個假數據集，發現它不僅能創造出看似合理的數據，甚至還能用來準確支撐錯誤的論文觀點。

對此，有網友表示十分理解：

大模型最重要的能力就是生成“看似合理的文本”，因此它非常適合幹這活兒。

還有網友感慨：技術“有良心”的程度，也就和用它的研究人員一樣。

所以，GPT-4創造的假數據究竟長啥樣？

GPT-4學術造假有一手

先來看看GPT-4是怎麼生成假數據的。

具體來說，研究人員采用GPT-4的高級數據分析（ADA，原代碼解釋器）功能，來生成一個假數據集。

這個過程中，研究人員給GPT-4提供一些專業知識和統計學要求，讓它生成的數據看起來更加“合理”。

第一步，給GPT-4輸入一系列數據要求。

研究人員先給GPT-4提供一系列詳細的提示詞，要求它創建一個關於圓錐角膜（keratoconus）眼部疾病患者的數據集。

圓錐角膜是一種疾病，會導致角膜變薄，導致註意力受損和視力不佳。

目前治療圓錐角膜疾病的方式主要有兩種，一種是穿透性角膜移植（PK），另一種是深板層移植（DALK）。

在沒有任何實質性證據的情況下，研究人員讓GPT-4捏造一組數據，支撐DALK比PK效果更好的觀點。

隨後，再設定一系列統計標準，如要求GPT-4生成的術前和術後數據產生統計學上的顯著差異。

第二步，就是生成數據。

這個過程中可能會由於GPT-4字數限制，導致答案生成暫停，通過“繼續”提示就能恢復生成過程。

最終，GPT-4成功生成包含160名男性和140名女性患者的數據集，並做出一組支撐DALK比PK效果更好的數據。

由GPT-4生成的假數據集長這樣，表格1是關於分類變量的數據，包括患者性別、手術類型、免疫排斥等情況：

表2是關於連續變量，包括術前術後的視力矯正情況等：

論文作者之一Giuseppe Giannaccare博士表示，如果非常快速地查看這個數據集，很難識別出它其實“不是人做的”。

專傢審查才能發現

為驗證GPT-4做出來的數據是否真的令人信服，Nature特意請來英國曼徹斯特大學生物統計學傢傑克·威爾金森（Jack Wilkinson）和同事Zewen Lu，來檢查數據可信度。

檢查結果表明，許多捏造出的患者在性別、名字匹配度上就有問題（例如Mary的性別一欄是男性一樣）。

然後，一些數據之間的相關性也不高，包括術前和術後視力測量與眼部成像檢查（eye-imaging test）之間的數據相關性等。

最後，患者的年齡也設置得不同尋常。

在檢查之後，用GPT-4生成假數據集的研究人員也承認，大模型在生成數據集上還存在有缺陷的地方。

但傑克·威爾金森（Jack Wilkinson）依舊對結果表示擔憂：

一旦知道自己“哪裡露餡”，AI很容易就能糾正它，並生成更加具有說服力的結果。

有網友認為，這篇文章最大的意義並不在於證明“GPT-4有幻覺”；

更重要的是，它證明GPT-4生成看似合理的數據集“非常容易”，也算是一種對期刊的警告（記得嚴格審稿！）。

不過，也有網友感覺研究意義不大，因為即使沒有ChatGPT這樣的工具，真想造假的學者也能很容易偽造出一套數據。

One More Thing

此外，這兩天一段關於ChatGPT的視頻在抖音上也是火得不行。

視頻中，終於畢業的歪果仁小哥直呼“感謝ChatGPT幫助我完成所有作業和考試”（手動狗頭）

GPT-4成學術造假“神器” 偽造數據又快又合理

相關推薦

又大又快又薄！8mm內唯一兼顧6100mAh+120W快充手機出現

豐田所有工廠恢復生產政府發出的暫停出貨指示已解除

AI成謊言制造機資本湧向打假科技

日野四名高管因發動機數據醜聞辭職

開山之作就造假！Science大曝Nature重磅論文學術不端恐誤導全球16年

她花12萬美元造假騙美國金融巨頭兩億美元

《自然》長文：ChatGPT闖入科研革新與隱患共存

學術打假鬥士饒毅“三戰”華大

多位人工智能專傢和行業高管在公開信中呼籲加強對深度偽造的監管

今日上映！《閃電俠》首批影評出爐：DC宇宙翻身作

最新GPT-4在律考中擊敗90%人類，它到底強在哪？

為自證沒用ChatGPT 副教授被迫用GitHub寫論文

美科技倫理組織要求FTC調查OpenAI 禁止發佈新的商業版GPT-4

李彥宏：百度很快會正式推出文心大模型3.5版本