GPT-4成學術造假“神器” 偽造數據又快又合理


學術造假有GPT-4,變得更容易。這兩天,一篇刊登在Nature上的新聞表示,GPT-4生成的造假數據集,第一眼還真不一定看得出來。除非請來業內專傢仔細對數據集進行評估,才能發現個中細節的不合理性。

這個新聞的來源是一篇發表在JAMA Ophthalmology上的論文。

論文使用GPT-4為一項醫學學術研究生成一個假數據集,發現它不僅能創造出看似合理的數據,甚至還能用來準確支撐錯誤的論文觀點。

對此,有網友表示十分理解:

大模型最重要的能力就是生成“看似合理的文本”,因此它非常適合幹這活兒。

還有網友感慨:技術“有良心”的程度,也就和用它的研究人員一樣。

所以,GPT-4創造的假數據究竟長啥樣?

GPT-4學術造假有一手

先來看看GPT-4是怎麼生成假數據的。

具體來說,研究人員采用GPT-4的高級數據分析(ADA,原代碼解釋器)功能,來生成一個假數據集。

這個過程中,研究人員給GPT-4提供一些專業知識和統計學要求,讓它生成的數據看起來更加“合理”。

第一步,給GPT-4輸入一系列數據要求。

研究人員先給GPT-4提供一系列詳細的提示詞,要求它創建一個關於圓錐角膜(keratoconus)眼部疾病患者的數據集。

圓錐角膜是一種疾病,會導致角膜變薄,導致註意力受損和視力不佳。

目前治療圓錐角膜疾病的方式主要有兩種,一種是穿透性角膜移植(PK),另一種是深板層移植(DALK)。

在沒有任何實質性證據的情況下,研究人員讓GPT-4捏造一組數據,支撐DALK比PK效果更好的觀點。

隨後,再設定一系列統計標準,如要求GPT-4生成的術前和術後數據產生統計學上的顯著差異。

第二步,就是生成數據。

這個過程中可能會由於GPT-4字數限制,導致答案生成暫停,通過“繼續”提示就能恢復生成過程。

最終,GPT-4成功生成包含160名男性和140名女性患者的數據集,並做出一組支撐DALK比PK效果更好的數據。

由GPT-4生成的假數據集長這樣,表格1是關於分類變量的數據,包括患者性別、手術類型、免疫排斥等情況:

表2是關於連續變量,包括術前術後的視力矯正情況等:

論文作者之一Giuseppe Giannaccare博士表示,如果非常快速地查看這個數據集,很難識別出它其實“不是人做的”。

專傢審查才能發現

為驗證GPT-4做出來的數據是否真的令人信服,Nature特意請來英國曼徹斯特大學生物統計學傢傑克·威爾金森(Jack Wilkinson)和同事Zewen Lu,來檢查數據可信度。

檢查結果表明,許多捏造出的患者在性別、名字匹配度上就有問題(例如Mary的性別一欄是男性一樣)。

然後,一些數據之間的相關性也不高,包括術前和術後視力測量與眼部成像檢查(eye-imaging test)之間的數據相關性等。

最後,患者的年齡也設置得不同尋常。

在檢查之後,用GPT-4生成假數據集的研究人員也承認,大模型在生成數據集上還存在有缺陷的地方。

但傑克·威爾金森(Jack Wilkinson)依舊對結果表示擔憂:

一旦知道自己“哪裡露餡”,AI很容易就能糾正它,並生成更加具有說服力的結果。

有網友認為,這篇文章最大的意義並不在於證明“GPT-4有幻覺”;

更重要的是,它證明GPT-4生成看似合理的數據集“非常容易”,也算是一種對期刊的警告(記得嚴格審稿!)。

不過,也有網友感覺研究意義不大,因為即使沒有ChatGPT這樣的工具,真想造假的學者也能很容易偽造出一套數據。

One More Thing

此外,這兩天一段關於ChatGPT的視頻在抖音上也是火得不行。

視頻中,終於畢業的歪果仁小哥直呼“感謝ChatGPT幫助我完成所有作業和考試”(手動狗頭)


相關推薦

2024-03-05

日本共同社報道,自今年1月底因附屬子公司發動機數據造假醜聞部分停產後,豐田汽車全面恢復國內生產,標志著其國內全部14傢工廠在大約一個月內首次全面投入運營。此次恢復生產涉及到在日本中部的兩傢工廠重新啟動剩餘

2023-04-25

當受騙。ChatGPT anti vaccine不僅是文字,AI在圖片和視頻上造假的功力也得。川普被捕的一系列假照片在網上被瘋狂轉載,這些用AI工具MidJourney創造出的圖片十分以假亂真,即使某些細節並不合理 - 比如圖中的川普有三條腿,還是

2022-10-10

是豐田前員工。日野此前承認在部分發動機上偽造數據,造假時間最早可追溯到2003年,至少比最初聲稱的時間早十年。這一醜聞對該公司的聲譽造成嚴重影響,共有約64萬輛汽車受到影響,是最初披露數字的五倍。在8月公佈的

2022-07-23

間引起軒然大波:震撼全 Science 。還有人擔心這麼大的“學術爆雷”,會影響到那些相關領域的學生畢不業。不過還少不一群看熱鬧不嫌事兒大的網友:Science 和 Nature 打起來呀!那麼 Cell 恐怕是在吃瓜席第一位。(Doge)不過這

2023-04-14

,連在美國政商兩界隻手遮天的摩根大通都敢詐騙;而且造假騙術還如此簡單低級。或許摩根大通的專業並購團隊看到這張清純陽光的面容,也不由放松警惕,沒有保持專業嚴格的審核標準。31歲的查莉·賈維斯(Charlie Javice

2023-02-21

幫他寫演講稿,出考試題和學生作業,還能把學生作文變成學術論文。他說:“很多人都把ChatGPT作為數字秘書或數字助理。”LLM既能充當搜索引擎,也能作為編程助理,甚至可以和其他公司的對話機器人就某件產品殺價。開發Ch

2022-07-27

絲。就是這樣一個“非典型網紅”,在近日,因為被國內學術打假鬥士饒毅四連炮轟,成為外界熱議的爭議人物。那麼,到底饒毅炮轟尹燁哪些問題?饒毅曾經的學術打假事件最後結局如何?1四連炮轟炮轟一:尹燁嘩眾取寵,

2024-02-22

止其產品制造有害深度假貨。截至本周三上午,已有來自學術界、娛樂界和政界等各行各業的 400 多人在信上簽名。簽名者包括哈佛大學心理學教授史蒂文-平克(Steven Pinker)、兩位愛沙尼亞前總統、Google DeepMind 的研究人員和 Ope

2023-06-16

階段來看,影片整體口碑相當積極,大部分觀眾認為全片又快又有節奏感,高水平的敘事看得很爽。此外,超人、蝙蝠俠還有閃電俠同框帶來視覺沖擊力。此外,有觀眾認為,縱使被俗套的穿越時空框架結構和世界觀鎖死,縱使

2023-03-15

還會隨著時間進行自動更新。OpenAI發佈的GPT-4在各種專業學術基準上有著人類水平表現。例如在模擬律師考試中,GPT-4得分約為前10%——擊敗90%人類,而ChatGPT背後的GPT-3.5得分約為倒數10%。“GPT-4 是世界第一款高體驗,強能力的先

2024-02-08

鑒定為“一眼ChatGPT”而被拒收。一位副教授的遭遇引發學術界關註,登上Nature專欄。她決定從此以後每篇論文都在GitHub上寫,用變更記錄來證明自己的清白。在文章中她根據自己的經歷提出“AI在不刻意的情況下也能破壞科學”

2023-05-26

服務;模型推理性能提升50%,即文心一言進化更快,學習又快又好,模型效果得到進一步提升;此外,飛槳一方面與大模型的訓練和部署進行協同優化,另一方面向下承接芯片,相當於芯片的“指令集”,適配優化後激發芯片的潛

2023-03-31

佈最新的GPT-4生成式人工智能多模態模型,在各種專業和學術的標準測試中表現出人類水平的性能。但同時,GPT-4的強大也引發不少人的擔憂。今日,CAIDP在提交給FTC的一份投訴中稱,GPT-4存在偏見和欺騙性,對隱私和公共安全構

2023-12-04

。理論上來說,這個功能結合兩個頻段的優點,不僅網速又快又穩,還避免手動切換網絡的麻煩。實際上該功能並不智能,其判定非常簡單:5GHz和2.4GHz信號都是滿格時,優先連5GHz;5GHz信號不滿格時,優先連2.4GHz。現實中可能出