如果允許學生用AI“作弊”,他們的成績分佈會發生怎樣的變化?針對這個問題,真有幾位大學教授正兒八經研究一番,並寫下長達62頁的研究論文。結果發現,使用GPT-4後,學生的“能力曲線被壓縮”,差生和優等生的差距縮小。
沃頓商學院教授分享這項研究後,引起不少網友討論。網友對這樣的結果也感覺很意外:
和我的預期完全不符啊,還以為所有人分數都會提高。
還有網友稱這是“真正的遊戲規則改變者”:
AI正在改變教育格局,在縮小差距的同時提高標準。
不過也有網友持不同觀點:
擅長使用AI的人可能表現會非常出色,那種看起來差距縮小的情況可能隻是因為有滿績點4.0這一上限:
AI會是“平衡器”嗎?
除上面所說的,我們查看論文,發現研究人員還得出這些結論:
使用GPT-4對參與者總體任務完成的質量影響較小且不穩定;使用GPT-4顯著減少參與者完成任務的時間;平時技能水平較低的參與者在使用GPT-4後,任務完成質量提升最為顯著,本就能獨立高質量完成任務的參與者獲得的質量提升較小;GPT-4能為所有學生節省相似的時間,無論他們原本完成任務的速度如何;即便參與者不解自己在各項任務上的具體成績,他們也能明確指出GPT-4最有效的應用場景。
下面一起來看實驗詳情。
具體來說,來自南加州大學Gould法學院、明尼蘇達大學法學院的幾位教授,以研究AI輔助對法律分析的影響為例。
給參與實驗的60位來自明尼蘇達大學法學院的學生提出四項初級律師常見的任務:起訴狀起草(Complaint Drafting)、合同起草(Contract Drafting)、員工手冊起草(EE Handbook)和客戶備忘錄起草(Client Memo)。
不同的是,這些參與者隨機分為兩組(A組、B組),每組30人。A組參與者需使用GPT-4完成起訴狀起草、合同起草任務,而B組使用GPT-4完成員工手冊起草和客戶備忘錄起草任務。
實驗前,全部學生都接受約2小時的培訓,解如何有效使用GPT-4進行法律分析。完成任務過程中,參與者需記錄自己完成任務的時間。
然後,研究人員在不知道參與者身份和其他信息的情況下,匿名完成所有作品的評分。
具體實驗結果如下。
在4.0績點機制上,使用GPT-4輔助後,學生在四項任務中的平均分數波動幅度為+0.17、+0.24、+0.07、-0.07。
可視化圖表更直觀:
總的來說,僅合同起草任務的表現在95%置信水平上展現出統計學意義上的顯著提升。
再來看使用和不使用GPT-4參與者,完成任務平均花費的時間:
可以直觀地看到,參與者完成任務時間大大縮減:
更多數據和分析內容,感興趣的朋友可查看論文。
值得一提的是,幾位教授在論文最後,還寫下長達12頁的啟示,針對律師、法律客戶、法官以及法學院、法學院學生提出不同的建議。
其中指出:法學院需要重新考慮學生使用AI的時機和方法,以及在何種情況下應限制AI的應用,以便更好地適應未來實踐的需求。
此外,針對不同人群的類似研究也不在少數。
職場中AI會是“平衡器”嗎?
來自哈佛商學院、沃頓商學院、MIT斯隆管理學院等的研究人員聯合波士頓咨詢公司做一項研究。
他們選取波士頓咨詢公司中的部分高知員工,讓他們使用AI輔助完成分析、創意構思和說服技巧等18項任務測試。
結果發現,原本表現位於團隊下半層的顧問們在AI輔助下成果質量提升43%;而平時表現在上半層的顧問僅提升17%。
使用GPT-4之前,頂尖員工與其他員工之間的平均差距為22%;使用之後,這一差距顯著縮小至4%。
MIT的一項研究同樣表明,使用ChatGPT之後,高水平寫作者和低水平寫作者的表現差異縮減一半。
創意寫作領域亦見相似現象,倫敦大學學院、埃克塞特大學研究人員的一項實驗表明,創意作傢技能差距縮小,GPT-4提供的五個創意靈感“有效地平衡不同創造力水平作傢的創造力評分”。
不過,盡管有多項研究表明使用AI可以縮減人們之間的技能差距,但正如論文分享者、沃頓商學院教授Ethan Mollick所言:
技能的造王者(King Maker)、加速器(Escalator)、平衡器(Leveler),AI究竟將扮演哪一種角色,並不是總是很清楚。
那麼,你認為AI在你身邊正扮演著哪種角色?