ChatGPT大戰司法考試:無需微調,一類試題達到人類水平


ChatGPT的下一個新身份——做題傢!這不,它已經在人類各個考試中開“卷”。律師、醫生、註會什麼的,它都開始紛紛展露身手。比如,全球考生都頭疼的司法考試,現在ChatGPT在兩項試題達到合格率,其中一項還跟人類水平持平。(還是在沒有任何微調的基礎上)


“成績”一出,瞬間引發巨大關註,網友:Amazing~


還有人表示,要是讓它來參加SAT或AP考試,應該會很有趣。


咳咳,要是公務員考試呢?

咱們結尾見分曉!

兩項法考試題合格

具體就先來看看ChatGPT在司法考試中的表現如何。

美國大多數州統一的司法考試(UBE),有三個組成部分:選擇題(多州律師考試,MBE)、作文(MEE)、情景表現(MPT)。

選擇題部分,由來自8個類別的200道題組成,通常占整個律師考試分數的50%。


在這項研究中,研究人員對OpenAI的text-davinci-003模型(通常被稱為GPT-3.5)在MBE的表現進行評估。

(ChatGPT正是GPT-3.5面向公眾的聊天機器人版本。)

為測試實際效果,研究人員購買官方組織提供的標準考試準備材料,包括練習題和模擬考試。每個問題的正文都是自動提取的,其中有四個多選選項,並與答案分開存儲,答案僅由每個問題的正確字母答案組成,也沒有對正確和錯誤的答案進行解釋。

隨後,研究人員分別對GPT-3.5進行提示工程、超參數優化以及微調的嘗試。結果發現,超參數優化和提示工程對GPT-3.5的成績表現有積極影響,而微調沒有任何效果。

在提示工程中,他們共測試7種提示類型。

1、隻做單項選擇;

2、單項選擇和解釋;

3、隻做前兩個選擇;

4、前兩個選擇和解釋;

5、前兩個選擇和重新提示;

6、對所有選擇進行排序;

7、對前三個選擇進行排序。


研究人員在上述的提示和參數值中執行107次樣本考試。結果在這些提示中,提示風格#7的前三個選項排序表現最好,他們共收集41個樣本,對這個提示進行參數組合。

超參數優化中,他們評估包括溫度系數、top p、best of、max tokens等參數。

最終在完整的MBE練習考試中達到50.3%的平均正確率,大大超過25%的基線猜測率,並且在證據和侵權行為兩個類型都達到平均通過率。尤其是證據類別,與人類水平持平,保持著63%的準確率。


在所有類別中,GPT平均落後於人類應試者約17%。在證據、侵權行為和民事訴訟的情況下,這一差距可以忽略不計或隻有個位數。

但總的來說,這一結果都大大超出研究人員的預期。

因為它對答案排序與正確性有很強的相關性,Top2和Top3的選擇分別有71%和88%的正確率。其中“Top2”的準確率全都超過極限,有五個類別均超過人類平均水平。而“Top3”的準確度更高,在證據這一表現中甚至達到98%。

這也證實它對法律領域的一般理解,而非隨機猜測。接下來他們將進一步對法考的其他兩部分:作文和情景表現進行上述的研究。

ChatGPT能當考霸嗎?

Google資深軟件工程師肯尼斯·古德曼(Kenneth S. Goodman)就拿ChatGPT做一系列測試,涉及司法、醫學、會計學、化學等多個領域。

分數最高的一門是紐約州高中畢業英語語言藝術考試,ChatGPT正確率達到91.6%

因為是2022年8月的考試,所以ChatGPT數據庫中肯定不包含考試內容。對於陌生的24道考題,它隻錯2題。


物理/化學考試中,ChatGPT的表現也不錯,正確率達到77.7%,45道題目中答對35道。


前不久,Google醫療大模型Med-PaLM通過美國醫師執照試題(USMLE)驗證。

ChatGPT也不甘於落後,同樣挑戰USMLE的第一階段基礎醫學考試。

去掉有圖像的題目後(因無法輸入對話框),ChatGPT正確率達70%


其餘則是在司法方面,工程師肯尼斯老哥讓ChatGPT嘗試一些非正式題目。

比如美國律師職業道德考試(MPRE)的示例題目(共15道),ChatGPT答對9道,正確率60%

面對50道律師資格考試模擬試題,ChatGPT的正確率也維持在70%,答對35道。

此外,在佛羅裡達農工大學法學院的入學考試中,ChatGPT取得149分,排名在前40%。其中閱讀理解類題目表現最好。


表現最差的,還是數學題

在CPA註會考試中,ChatGPT的正確率隻有40%。肯尼斯老哥還在嘗試一些調教方法,讓它更聰明一些。


總之,ChatGPT在各種考試中的表現,還是讓人有些意外。

有網友已經產生危機感:

damn,我的工作要被搶!


有人分析,如果直接讓AI來插手司法相關的判斷,風險真的很大,但如果後期有專人來審核它的輸出結果,那麼AI將能夠很好提升律師的工作效率。


還有人表示,如果能保證任何數據都不泄露的話,那ChatGPT將能夠推動更多行業平民化。


或許正如肯尼斯老哥說的那樣,人類+電腦的組合已經超越人類自身能力,這就是計算機當下正在進行的突破。


One More Thing

最後,我們也讓ChatGPT試試國內法考的題目~

先說結果,3道選擇題,ChatGPT都沒有答對……雖然解釋得頭頭是道,但它應該確實沒有讀過我國的法條。


參考答案D

這答案羅翔老師看直搖頭

參考答案A

參考答案A

換成公務員行測試題呢?沒想到ChatGPT的答案對,可是過程和答案似乎完全沒關系……

ChatGPT大戰司法考試,無需微調,一類試題達到人類水平!

這……怎麼感覺AI秒算結果,但隨便編個過程來糊弄人類啊!


相關推薦

2023-05-11

使用AGIEval基準評估三個最先進的基礎模型,包括GPT-4、 ChatGPT和Text-Davinci-003,實驗結果發現GPT-4在SAT、 LSAT和數學競賽中的成績超過人類平均水平,SAT數學考試的準確率達到95% ,中國高考英語考試的準確率達到92.5% ,表明目前基

2023-02-16

目前,ChatGPT還沒有通過圖靈測試的評估。其實,迄今為止,還沒有人工智能模型能真正通過圖靈測試。去年11月,美國人工智能研究公司OpenAI發佈一款名為ChatGPT的聊天機器人,其在推出後的幾周內就風靡全球,甚至引發一場新

2024-04-23

得到結果。有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。新基準測試如何運作?簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。首先,挑選過程中確保多樣性,也

2023-03-15

單,OpenAI這次“啪的一下”把相關“大動作”一步到位:ChatGPT Plus:集成GPT-4的ChatGPT升級版發佈GPT-4的API公佈技術論文 * 公開System Card不僅如此,傳聞的“必應早就用上GPT-4”在今天也得到微軟方面的證實:沒錯,確實是這樣的!

2023-03-17

勤勤懇懇搬磚的平凡一天,但小編剛睡醒就發現朋友圈被ChatGPT刷屏:新版GPT-4震撼發佈!大升級!強到爆炸!這些字眼引起我的興趣,於是小編迅速入(ke)手(jin)gpt-4,經過簡單體驗後,小編發現Chatgpt的思維深度確實比之前有跨越

2023-02-17

羅馬不是一天建成的。當人工智能對話工具ChatGPT一夜之間成為頂流,在略顯沉悶的科技界如閃電般發出炫目光芒後,它似乎點亮指引投資界方向的明燈,一些商界人士的內心開始“騷動”。的確,這個成績是史無前例的。ChatGPT

2023-02-15

不久之後,列出ChatGPT不能完成的任務將比它能完成的任務更容易。我們已經分享關於ChatGPT通過法學院和商學院考試的報告,現在一項新的研究顯示,人工智能聊天機器人也能通過美國醫學執照考試(USMLE),盡管其分數並不特

2023-03-17

研究、風險評估和迭代。也就是說,OpenAI在去年年底推出ChatGPT的時候,已經有GPT-4。於是乎,博主便預測GPT-5的訓練時間不會很久,甚至他認為GPT-5已經可能訓練完成。但接下來的問題是漫長的安全研究和風險評估,可能是幾個

2023-03-15

做出同款網頁。當國內還在熱議人工智能對話大模型產品ChatGPT時,背後核心預訓練模型技術GPT卻突然重磅升級。北京時間3月15日凌晨,創造出ChatGPT的美國 AI 公司OpenAI 正式對外發佈GPT-4。據悉,GPT-4是新一代多模態大模型,支持

2024-05-06

11個,而同行基本上都隻有5-6個自由度。並且堅固耐用,無需經常維護即可承受大量物體交互。而就在Jim Fan的評論區,馬斯克還現身透露一個更重磅的消息:今年晚些時候,Optimus手的自由度將達到22個!不過有一說一,視頻中展

2023-11-09

對外宣傳的工但奇怪的是,用戶在體驗後發現,號稱超越ChatGPT的一些大模型產品,實際表現不盡如人意。各種不同的統計排名口徑,更是讓人感到迷惑。以至於“第一”太多,榜單都快不夠用。比如最近,昆侖萬維開源‘天工

2023-03-16

據發佈會披露的內容來看,這個新一代比早先大傢使用的ChatGPT的GPT-3.5內核強悍一大截,再次刷新人們對AI的認知。首先,非常非常重要的一點是,GPT-4可以接受文字以外的內容輸入,目前支持文字與圖像的混合輸入。在官方的示

2024-01-17

近日,美國人工智能初創企業OpenAI的首席執行官薩姆·阿爾特曼(Sam Altman)發表對於人工智能未來的看法。他指出,達到人類水平級別的人工智能即將出現,但其對世界的影響遠沒有人們想象的那麼大。在瑞士達沃斯世界經濟論

2023-02-16

在美國《科學公共圖書館·數字健康》的一篇文章提到,ChatGPT參加美國執業醫師資格考試。這項以高難度著稱的考試中,共350道題,內容涵蓋基礎科學、生物化學、診斷推理和生物道德學。ChatGPT未經專門的培訓或強化,經過兩