使用GPT-4 學渣比學霸更有優勢


如果允許學生用AI“作弊”,他們的成績分佈會發生怎樣的變化?針對這個問題,真有幾位大學教授正兒八經研究一番,並寫下長達62頁的研究論文。結果發現,使用GPT-4後,學生的“能力曲線被壓縮”,差生和優等生的差距縮小。

沃頓商學院教授分享這項研究後,引起不少網友討論。網友對這樣的結果也感覺很意外:

和我的預期完全不符啊,還以為所有人分數都會提高。

還有網友稱這是“真正的遊戲規則改變者”:

AI正在改變教育格局,在縮小差距的同時提高標準。

不過也有網友持不同觀點:

擅長使用AI的人可能表現會非常出色,那種看起來差距縮小的情況可能隻是因為有滿績點4.0這一上限:

AI會是“平衡器”嗎?

除上面所說的,我們查看論文,發現研究人員還得出這些結論:

使用GPT-4對參與者總體任務完成的質量影響較小且不穩定;使用GPT-4顯著減少參與者完成任務的時間;平時技能水平較低的參與者在使用GPT-4後,任務完成質量提升最為顯著,本就能獨立高質量完成任務的參與者獲得的質量提升較小;GPT-4能為所有學生節省相似的時間,無論他們原本完成任務的速度如何;即便參與者不解自己在各項任務上的具體成績,他們也能明確指出GPT-4最有效的應用場景。

下面一起來看實驗詳情。

具體來說,來自南加州大學Gould法學院、明尼蘇達大學法學院的幾位教授,以研究AI輔助對法律分析的影響為例。

給參與實驗的60位來自明尼蘇達大學法學院的學生提出四項初級律師常見的任務:起訴狀起草(Complaint Drafting)、合同起草(Contract Drafting)、員工手冊起草(EE Handbook)和客戶備忘錄起草(Client Memo)。

不同的是,這些參與者隨機分為兩組(A組、B組),每組30人。A組參與者需使用GPT-4完成起訴狀起草、合同起草任務,而B組使用GPT-4完成員工手冊起草和客戶備忘錄起草任務。

實驗前,全部學生都接受約2小時的培訓,解如何有效使用GPT-4進行法律分析。完成任務過程中,參與者需記錄自己完成任務的時間。

然後,研究人員在不知道參與者身份和其他信息的情況下,匿名完成所有作品的評分。

具體實驗結果如下。

在4.0績點機制上,使用GPT-4輔助後,學生在四項任務中的平均分數波動幅度為+0.17、+0.24、+0.07、-0.07。

可視化圖表更直觀:

總的來說,僅合同起草任務的表現在95%置信水平上展現出統計學意義上的顯著提升。

再來看使用和不使用GPT-4參與者,完成任務平均花費的時間:

可以直觀地看到,參與者完成任務時間大大縮減:

更多數據和分析內容,感興趣的朋友可查看論文。

值得一提的是,幾位教授在論文最後,還寫下長達12頁的啟示,針對律師、法律客戶、法官以及法學院、法學院學生提出不同的建議。

其中指出:法學院需要重新考慮學生使用AI的時機和方法,以及在何種情況下應限制AI的應用,以便更好地適應未來實踐的需求。

此外,針對不同人群的類似研究也不在少數。

職場中AI會是“平衡器”嗎?

來自哈佛商學院、沃頓商學院、MIT斯隆管理學院等的研究人員聯合波士頓咨詢公司做一項研究。

他們選取波士頓咨詢公司中的部分高知員工,讓他們使用AI輔助完成分析、創意構思和說服技巧等18項任務測試。

結果發現,原本表現位於團隊下半層的顧問們在AI輔助下成果質量提升43%;而平時表現在上半層的顧問僅提升17%。

使用GPT-4之前,頂尖員工與其他員工之間的平均差距為22%;使用之後,這一差距顯著縮小至4%。

MIT的一項研究同樣表明,使用ChatGPT之後,高水平寫作者和低水平寫作者的表現差異縮減一半。

創意寫作領域亦見相似現象,倫敦大學學院、埃克塞特大學研究人員的一項實驗表明,創意作傢技能差距縮小,GPT-4提供的五個創意靈感“有效地平衡不同創造力水平作傢的創造力評分”。

不過,盡管有多項研究表明使用AI可以縮減人們之間的技能差距,但正如論文分享者、沃頓商學院教授Ethan Mollick所言:

技能的造王者(King Maker)、加速器(Escalator)、平衡器(Leveler),AI究竟將扮演哪一種角色,並不是總是很清楚。

那麼,你認為AI在你身邊正扮演著哪種角色?



相關推薦

2024-04-23

25美元快速運行測試管線,即可得到結果。有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。新基準測試如何運作?簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。首

2023-03-16

T-4。根據發佈會披露的內容來看,這個新一代比早先大傢使用的ChatGPT的GPT-3.5內核強悍一大截,再次刷新人們對AI的認知。首先,非常非常重要的一點是,GPT-4可以接受文字以外的內容輸入,目前支持文字與圖像的混合輸入。在官

2023-01-13

能手表研發MicroLED面板。目前三星Galaxy Watch系列智能手表使用的是OLED屏,未來將會轉向MicroLED屏幕。此外,三星還是Apple Watch OLED面板供應商。最新有消息稱蘋果計劃在Apple Watch上使用MicroLED面板,因此三星研發MicroLED,一方面是自

2024-05-29

臺積電在先進半導體工藝方面獨步天下,但除技術能力方面的原因,在臺積電前研發處長楊光磊看來,東方文化也很關鍵。楊光磊在接受媒體采訪時表示,優秀的工程師和有紀律的工作文化,是亞洲在先進半導體制造上的兩大優

2024-06-07

媒體報道,在高考前的最後一堂課上,99年高三老師哭得比學生還傷心。她說,希望同學們畢業後朋友圈不要屏蔽我,三年見證你們的成長,以後也不想錯過。網友表示,這份真摯的情感讓人感動。高中畢業,大傢即將奔赴大學

2022-08-01

績。醫生表示,這兩類孩子往往被傢長和老師誤解成“小學渣”或者不愛學習的“小懶蟲”。但實際上,經過正規的治療,包括藥物治療、行為治療、專業的康復訓練等,這些孩子的情況是可以大大改善的,甚至從“學渣”逆襲

2023-11-14

的高水平通過臨床執業醫師資格考試,這是名副其實的“學霸”。應用方面,誇克大模型將應用於通用搜索、醫療健康、教育學習、職場辦公等場景,誇克App亦將借助這一大模型全面升級。

2024-04-23

盡管GPT-4目前在日益錯綜復雜的生成式人工智能世界中處於頂峰,但其競爭對手,包括Anthropic的Claude和Meta的開源Llama都在不斷進步,因此OpenAI的旗艦產品大型語言模型(LLM)有必要進行新一輪迭代。雖然不少人預計山姆-奧特曼的

2024-05-24

職業表示擔憂,認為白領在社會地位、收入穩定性等方面更有優勢。專傢指出,藍領和白領並沒有高低之分,應該增強人們職業不分高低的理念。為改變藍領工作的形象,專傢建議為藍領提供更多人才認定機會與職業晉升渠道,

2024-04-12

維做出來的模型也是更好的,這使得閉源在成本、效率上更有優勢。

2023-11-14

將來,X 平臺所有的“高級訂閱用戶”(X Premium+)都可以使用 Grok。那麼與 ChatGPT 等 AI 助手相比,Grok 有什麼特別之處?馬斯克在 AI 領域又在下什麼大棋?“馬斯克版”ChatGPT眾所周知,馬斯克常常吐槽 ChatGPT 過於“政治正確”

2022-10-15

所以競爭也非常殘酷。顯然可以制造3D NAND芯片的廠商會更有優勢,畢竟更解自己的芯粒,知道如何更好地利用並控制成本。盡管價格上不一定有優勢,但仍然有一些品牌成功地推出自己的高性能SSD,在細分市場充滿競爭力,比

2024-04-12

快科技4月12日消息,據媒體報道,OpenAI的全新GPT-4 Turbo模型已全面上線,並正式向付費ChatGPT用戶開放。GPT-4 Turbo更新標志著人工智能領域的又一重要進步,為用戶提供更強大、更高效的文本處理、數學計算、邏輯推理以及編碼能

2023-02-23

內雇用數字人,比Siri和ChatGPT等聊天機器人更有優勢。在使用人類的聲音和面孔進行包裝後,數字人就能讓用戶感覺好像在和真人聊天一樣。悉尼大學講師麥克西摩表示,雖然數字人不可能在每個角色上取代真人,但也會有一些