使用GPT-4 學渣比學霸更有優勢

2024-02-17 來自量子位發表於業界精選

如果允許學生用AI“作弊”，他們的成績分佈會發生怎樣的變化？針對這個問題，真有幾位大學教授正兒八經研究一番，並寫下長達62頁的研究論文。結果發現，使用GPT-4後，學生的“能力曲線被壓縮”，差生和優等生的差距縮小。

沃頓商學院教授分享這項研究後，引起不少網友討論。網友對這樣的結果也感覺很意外：

和我的預期完全不符啊，還以為所有人分數都會提高。

還有網友稱這是“真正的遊戲規則改變者”：

AI正在改變教育格局，在縮小差距的同時提高標準。

不過也有網友持不同觀點：

擅長使用AI的人可能表現會非常出色，那種看起來差距縮小的情況可能隻是因為有滿績點4.0這一上限：

AI會是“平衡器”嗎？

除上面所說的，我們查看論文，發現研究人員還得出這些結論：

使用GPT-4對參與者總體任務完成的質量影響較小且不穩定；使用GPT-4顯著減少參與者完成任務的時間；平時技能水平較低的參與者在使用GPT-4後，任務完成質量提升最為顯著，本就能獨立高質量完成任務的參與者獲得的質量提升較小；GPT-4能為所有學生節省相似的時間，無論他們原本完成任務的速度如何；即便參與者不解自己在各項任務上的具體成績，他們也能明確指出GPT-4最有效的應用場景。

下面一起來看實驗詳情。

具體來說，來自南加州大學Gould法學院、明尼蘇達大學法學院的幾位教授，以研究AI輔助對法律分析的影響為例。

給參與實驗的60位來自明尼蘇達大學法學院的學生提出四項初級律師常見的任務：起訴狀起草（Complaint Drafting）、合同起草（Contract Drafting）、員工手冊起草（EE Handbook）和客戶備忘錄起草（Client Memo）。

不同的是，這些參與者隨機分為兩組（A組、B組），每組30人。A組參與者需使用GPT-4完成起訴狀起草、合同起草任務，而B組使用GPT-4完成員工手冊起草和客戶備忘錄起草任務。

實驗前，全部學生都接受約2小時的培訓，解如何有效使用GPT-4進行法律分析。完成任務過程中，參與者需記錄自己完成任務的時間。

然後，研究人員在不知道參與者身份和其他信息的情況下，匿名完成所有作品的評分。

具體實驗結果如下。

在4.0績點機制上，使用GPT-4輔助後，學生在四項任務中的平均分數波動幅度為+0.17、+0.24、+0.07、-0.07。

可視化圖表更直觀：

總的來說，僅合同起草任務的表現在95%置信水平上展現出統計學意義上的顯著提升。

再來看使用和不使用GPT-4參與者，完成任務平均花費的時間：

可以直觀地看到，參與者完成任務時間大大縮減：

更多數據和分析內容，感興趣的朋友可查看論文。

值得一提的是，幾位教授在論文最後，還寫下長達12頁的啟示，針對律師、法律客戶、法官以及法學院、法學院學生提出不同的建議。

其中指出：法學院需要重新考慮學生使用AI的時機和方法，以及在何種情況下應限制AI的應用，以便更好地適應未來實踐的需求。

此外，針對不同人群的類似研究也不在少數。

職場中AI會是“平衡器”嗎？

來自哈佛商學院、沃頓商學院、MIT斯隆管理學院等的研究人員聯合波士頓咨詢公司做一項研究。

他們選取波士頓咨詢公司中的部分高知員工，讓他們使用AI輔助完成分析、創意構思和說服技巧等18項任務測試。

結果發現，原本表現位於團隊下半層的顧問們在AI輔助下成果質量提升43%；而平時表現在上半層的顧問僅提升17%。

使用GPT-4之前，頂尖員工與其他員工之間的平均差距為22%；使用之後，這一差距顯著縮小至4%。

MIT的一項研究同樣表明，使用ChatGPT之後，高水平寫作者和低水平寫作者的表現差異縮減一半。

創意寫作領域亦見相似現象，倫敦大學學院、埃克塞特大學研究人員的一項實驗表明，創意作傢技能差距縮小，GPT-4提供的五個創意靈感“有效地平衡不同創造力水平作傢的創造力評分”。

不過，盡管有多項研究表明使用AI可以縮減人們之間的技能差距，但正如論文分享者、沃頓商學院教授Ethan Mollick所言：

技能的造王者（King Maker）、加速器（Escalator）、平衡器（Leveler），AI究竟將扮演哪一種角色，並不是總是很清楚。

那麼，你認為AI在你身邊正扮演著哪種角色？

相關推薦

新測試基準發佈最強開源Llama 3尷尬

2024-04-23

25美元快速運行測試管線，即可得到結果。有網友評價，使用真實用戶提示詞而不是高中考試來測試，真的很重要。新基準測試如何運作？簡單來說，通過大模型競技場20萬個用戶查詢中，挑選500個高質量提示詞作為測試集。首

ChatGPT-4威力加強版上手：它很強但也有點拉

2023-03-16

T-4。根據發佈會披露的內容來看，這個新一代比早先大傢使用的ChatGPT的GPT-3.5內核強悍一大截，再次刷新人們對AI的認知。首先，非常非常重要的一點是，GPT-4可以接受文字以外的內容輸入，目前支持文字與圖像的混合輸入。在官

比OLED更有優勢！三星研發MicroLED面板

2023-01-13

能手表研發MicroLED面板。目前三星Galaxy Watch系列智能手表使用的是OLED屏，未來將會轉向MicroLED屏幕。此外，三星還是Apple Watch OLED面板供應商。最新有消息稱蘋果計劃在Apple Watch上使用MicroLED面板，因此三星研發MicroLED，一方面是自

臺積電前研發主管：制造芯片東方文化更有優勢

2024-05-29

臺積電在先進半導體工藝方面獨步天下，但除技術能力方面的原因，在臺積電前研發處長楊光磊看來，東方文化也很關鍵。楊光磊在接受媒體采訪時表示，優秀的工程師和有紀律的工作文化，是亞洲在先進半導體制造上的兩大優

99年高三老師哭得比學生還傷心網友：這份真摯情感讓人感動

2024-06-07

媒體報道，在高考前的最後一堂課上，99年高三老師哭得比學生還傷心。她說，希望同學們畢業後朋友圈不要屏蔽我，三年見證你們的成長，以後也不想錯過。網友表示，這份真摯的情感讓人感動。高中畢業，大傢即將奔赴大學

復旦兒科醫院“學習困難”門診預約火爆，這種“病”怎麼治？

2022-08-01

績。醫生表示，這兩類孩子往往被傢長和老師誤解成“小學渣”或者不愛學習的“小懶蟲”。但實際上，經過正規的治療，包括藥物治療、行為治療、專業的康復訓練等，這些孩子的情況是可以大大改善的，甚至從“學渣”逆襲

阿裡發佈自研誇克大模型整體能力已超GPT-3.5

2023-11-14

的高水平通過臨床執業醫師資格考試，這是名副其實的“學霸”。應用方面，誇克大模型將應用於通用搜索、醫療健康、教育學習、職場辦公等場景，誇克App亦將借助這一大模型全面升級。

為什麼OpenAI更有可能在今年發佈GPT-4.5而不是GPT-5？

2024-04-23

盡管GPT-4目前在日益錯綜復雜的生成式人工智能世界中處於頂峰，但其競爭對手，包括Anthropic的Claude和Meta的開源Llama都在不斷進步，因此OpenAI的旗艦產品大型語言模型（LLM）有必要進行新一輪迭代。雖然不少人預計山姆-奧特曼的

藍領崗位成為更多畢業生的選擇不再執著於辦公室崗位

2024-05-24

職業表示擔憂，認為白領在社會地位、收入穩定性等方面更有優勢。專傢指出，藍領和白領並沒有高低之分，應該增強人們職業不分高低的理念。為改變藍領工作的形象，專傢建議為藍領提供更多人才認定機會與職業晉升渠道，

李彥宏首次回應為何不開源文心大模型：閉源能賺到錢才能聚集人才

2024-04-12

維做出來的模型也是更好的，這使得閉源在成本、效率上更有優勢。

馬斯克的 ChatGPT“Grok” 用起來到底怎麼樣？

2023-11-14

將來，X 平臺所有的“高級訂閱用戶”（X Premium+）都可以使用 Grok。那麼與 ChatGPT 等 AI 助手相比，Grok 有什麼特別之處？馬斯克在 AI 領域又在下什麼大棋？“馬斯克版”ChatGPT眾所周知，馬斯克常常吐槽 ChatGPT 過於“政治正確”

2021年全球SSD出貨量達到1.27億金士頓和威剛位居前二

2022-10-15

所以競爭也非常殘酷。顯然可以制造3D NAND芯片的廠商會更有優勢，畢竟更解自己的芯粒，知道如何更好地利用並控制成本。盡管價格上不一定有優勢，但仍然有一些品牌成功地推出自己的高性能SSD，在細分市場充滿競爭力，比

OpenAI新GPT-4 Turbo模型上線：可供付費ChatGPT用戶使用

2024-04-12

快科技4月12日消息，據媒體報道，OpenAI的全新GPT-4 Turbo模型已全面上線，並正式向付費ChatGPT用戶開放。GPT-4 Turbo更新標志著人工智能領域的又一重要進步，為用戶提供更強大、更高效的文本處理、數學計算、邏輯推理以及編碼能

未來10年數字人將被眾多公司雇用：不抱怨工作不要求加薪

2023-02-23

內雇用數字人，比Siri和ChatGPT等聊天機器人更有優勢。在使用人類的聲音和面孔進行包裝後，數字人就能讓用戶感覺好像在和真人聊天一樣。悉尼大學講師麥克西摩表示，雖然數字人不可能在每個角色上取代真人，但也會有一些

熱門推薦