AI考公考編指日可待 微軟華人團隊發佈全新基準AGIEval 專為人類考試而生


隨著語言模型的能力越來越強,現有的這些評估基準實在有點小兒科,有些任務的性能都甩人類一截。通用人工智能(AGI)的一個重要特點是模型具有處理人類水平任務的泛化能力,而依賴於人工數據集的傳統基準測試並不能準確表示人類的能力。

最近,微軟的研究人員發佈一個全新基準AGIEval,專門用於評估基礎模型在“以人為本”(human-centric)的標準化考試中,如高考、公務員考試、法學院入學考試、數學競賽和律師資格考試中的表現


論文鏈接:https://arxiv.org/pdf/2304.06364.pdf

數據鏈接:https://github.com/microsoft/AGIEval

研究人員使用AGIEval基準評估三個最先進的基礎模型,包括GPT-4、 ChatGPT和Text-Davinci-003,實驗結果發現GPT-4在SAT、 LSAT和數學競賽中的成績超過人類平均水平,SAT數學考試的準確率達到95% ,中國高考英語考試的準確率達到92.5% ,表明目前基礎模型的非凡表現。

但GPT-4在需要復雜推理或特定領域知識的任務中不太熟練,文中對模型能力(理解、知識、推理和計算)的全面分析揭示這些模型的優勢和局限性

01 AGIEval數據集

近年來,大型基礎模型如GPT-4在各個領域已經表現出非常強大的能力,可以輔助人類處理日常事件,甚至還能在法律、醫學和金融等專業領域提供決策建議。

也就是說,人工智能系統正逐步接近並實現通用人工智能(AGI)

但隨著AI逐步融入日常生活,如何評估模型以人為本的泛化能力,識別潛在的缺陷,並確保它們能夠有效地處理復雜的、以人為本的任務,以及評估推理能力確保在不同環境下的可靠性和可信度是至關重要的。

研究人員構造AGIEval數據集主要遵循兩個設計原則:

1. 強調人腦級別的認知任務

設計“以人為本”的主要目標是以與人類認知和解決問題密切相關的任務為中心,並以一種更有意義和全面的方式評估基礎模型的泛化能力。

為實現這一目標,研究人員選擇各種官方的、公開的、高標準的招生和資格考試,以滿足一般人類應試者的需要,包括大學入學考試、法學院入學考試、數學考試、律師資格考試和國傢公務員考試,每年都有數百萬尋求進入高等教育或新職業道路的人參加這些考試。

通過遵守這些官方認可的評估人類水平能力的標準,AGIEval可以確保對模型性能的評估與人類決策和認知能力直接相關。

2. 與現實世界場景的相關性

通過選擇來自高標準的入學考試和資格考試的任務,可以確保評估結果能夠反映個人在不同領域和背景下經常遇到的挑戰的復雜性和實用性。

這種方法不僅可以衡量模型在人類認知能力方面的表現,而且可以更好地解在現實生活中的適用性和有效性,即有助於開發出更可靠、更實用、更適合於解決廣泛的現實世界問題的人工智能系統


根據上述設計原則,研究人員選擇多種標準化的高質量考試,強調人類水平的推理和現實世界的相關性,具體包括:

1. 普通高校入學考試

大學入學考試包含各種科目,需要批判性思維、解決問題和分析能力,是評估大型語言模型與人類認知相關性能的理想選擇。

具體包括研究生入學考試(GRE),學術評估考試(SAT)和中國高考(Gaokao),可以評估尋求進入高等教育機構的學生的一般能力和特定學科知識。

數據集中收集與中國高考8個科目對應的考試:歷史、數學、英語、中文、地理、生物、化學和物理;從GRE中選擇數學題;從SAT中選擇英語和數學科目來構建基準數據集。

2. 法學院入學考試

法學院入學考試,如LSAT,旨在衡量未來的法律學生的推理和分析能力,考試內容包括邏輯推理、閱讀理解和分析推理等部分,需要應試者分析復雜信息和得出準確結論的能力,這些任務可以評估語言模型在法律推理和分析方面的能力。

3. 律師資格考試

可以評估追求法律職業的個人的法律知識、分析能力和道德理解,考試內容涵蓋廣泛的法律主題,包括憲法、合同法、刑法和財產法,並要求考生展示他們有效應用法律原則和推理的能力,可以在專業法律知識和道德判斷的背景下評估語言模型的表現。

4. 研究生管理入學考試(GMAT)

GMAT是一個標準化的考試,可以評估未來商學院研究生的分析、定量、言語和綜合推理能力,由分析性寫作評估、綜合推理、定量推理和言語推理等部分組成,評估應試者的批判性思考、分析數據和有效溝通的能力。

5. 高中數學競賽

這些比賽涵蓋廣泛的數學主題,包括數論、代數、幾何和組合學,並且經常出現一些非常規的問題,需要用創造性的方法來解決。

具體包括美國數學競賽(AMC)和美國數學邀請考試(AIME),可以測試學生的數學能力、創造力和解決問題的能力,能夠進一步評估語言模型處理復雜和創造性數學問題的能力,以及模型生成新穎解決方案的能力。

6. 國內公務員考試

可以評估尋求進入公務員隊伍的個人的能力和技能,考試內容包括評估一般知識、推理能力、語言技能,以及與中國各種公務員職位的角色和職責有關的特定科目的專業知識,可以衡量語言模型在公共管理背景下的表現,以及他們對政策制定、決策和公共服務提供過程的潛力。

02 評估結果

選擇的模型包括:

ChatGPT,由OpenAI開發的對話式人工智能模型,可以參與用戶互動和動態對話,使用龐大的指令數據集進行訓練,並通過強化學習與人類反饋(RLHF)進一步調整,使其能夠提供與人類期望相一致的上下文相關和連貫的回復

GPT-4,作為第四代GPT模型,包含范圍更廣的知識庫,在許多應用場景中都表現出人類水平的性能。GPT-4利用對抗性測試和ChatGPT進行反復調整,從而在事實性、可引導性和對規則的遵守方面有明顯的改進。

Text-Davinci-003是GPT-3和GPT-4之間的一個中間版本,通過指令微調後比GPT-3的性能更好。

除此之外,實驗中還報告人類應試者的平均成績和最高成績,作為每個任務的人類水平界限,但並不能完全代表人類可能擁有的技能和知識范圍。

Zero-shot/Few-shot評估

在零樣本的設置下,模型直接對問題進行評估;在少樣本任務中,在對測試樣本進行評估之前,先輸入同一任務中的少量例子(如5個)。

為進一步測試模型的推理能力,實驗中還引入思維鏈(CoT)提示,即先輸入提示“Let’s think step by step”為給定的問題生成解釋,然後輸入提示“Explanation is”根據解釋生成最終的答案。


基準中的“多選題”使用標準分類準確率;“填空題”使用精確匹配(EM)和F1指標。



從實驗結果中可以發現:

1. GPT-4在所有任務設置下都明顯優於其同類產品,其中在Gaokao-English上更是取得93.8%的準確率,在SAT-MATH上取得95%的準確率,表明GPT-4在處理以人為本的任務方面具有卓越的通用能力。

2. ChatGPT在需要外部知識的任務中明顯優於Text-Davinci-003,例如涉及地理、生物、化學、物理和數學的任務,表明ChatGPT擁有更強大的知識基礎,能夠更好地處理那些需要對特定領域有深刻理解的任務。

另一方面,ChatGPT在所有評估設置中,在需要純粹理解和不嚴重依賴外部知識的任務中,如英語和LSAT任務,略微優於Text-Davinci-003,或取得相當的結果。這一觀察結果意味著,這兩個模型都能夠處理以語言理解和邏輯推理為中心的任務,而不需要專門的領域知識。

3. 盡管這些模型的總體表現不錯,但所有的語言模型都在復雜的推理任務中表現不佳,比如MATH、LSAT-AR、GK-physics和GK-Math,突出這些模型在處理需要高級推理和解決問題技能的任務方面的局限性。

觀察到的處理復雜推理問題的困難為未來的研究和開發提供機會,目的是提高模型的一般推理能力。

4. 與zero-shot學習相比,few-shot學習通常隻能帶來有限的性能改善,表明目前大型語言模型的zero-shot學習能力正在接近few-shot學習能力,也標志著與最初的GPT-3模型相比有很大的進步,當時few-shot性能要比zero-shot好得多

對這一發展的一個合理解釋是,在目前的語言模型中加強人類的調整和指令的調整,這些改進使模型能夠提前更好地理解任務的含義和背景,從而使它們即使在zero-shot的情況下也能有良好的表現,證明指令的有效性。


相關推薦

2023-03-15

類,但在各種專業和學術基準上表現出人類水平的表現。微軟在GPT-4發佈後第一時間表示,新的必應(Bing)已經基於GPT-4 技術運行,這是為搜索產品量身定制的模型產品。“如果你在過去五周內的任何時候使用過新的Bing預覽版

2022-07-09

公示名單是2018年初招聘人員的公示名單。名校畢業生對考公熱衷程度如此,一批互聯網大廠人同樣加入考公大軍,“大廠月入三萬,不如回傢考公”“好飯碗不如鐵飯碗”“年薪四十萬的大廠offer不如年薪五萬的公務員”等說法

2024-03-06

要為人類構建安全的AGI。不過,隨著馬斯克的離開和隨後微軟的加入,OpenAI的定位和價值觀都開始發生變化。Dario和Daniela,以及OpenAI的很多員工開始與Altman的理念發生分歧,後來兄妹倆,加上曾在OpenAI負責GPT-3模型的Tom Brown一共7

2023-04-19

發團隊來自KAUST(沙特阿卜杜拉國王科技大學),包括4位華人成員和他們的導師 Mohamed Elhoseiny。兩位正在讀博的共同一作還在GitHub頁面上特別標註正在找工作。有意向的公司要抓緊搶人~在線Demo:https://minigpt-4.github.io開源代碼:h

2024-03-18

稱所謂強大到會為人類帶來風險的“超級人工智能”並非指日可待,意指OpenAI所謂的“為安全而閉源”完全就是自欺欺人。“如果你出於某種天真和優越感,覺得自己是能生產出“超級人工智能”的人,而其他人都愚蠢到無法安

2023-03-15

ChatGPT 直接升級成 GPT-4 版的,也開放 GPT-4 的 API。另外,微軟營銷主管在 GPT-4 發佈後第一時間表示:“如果你在過去六周內的任何時候使用過新的 Bing 預覽版,你就已經提前解 OpenAI 最新模型的強大功能。”是的,微軟的新必應

2023-03-14

3月14日消息,美國當地時間周一,微軟被曝解散其整個AI風險評估團隊。據悉,這個團隊正式名稱為AI道德與社會團隊,其主要職能在於指導微軟在AI方面的創新,從而產生符合道德標準、負責任以及可持續的結果。最近,該團隊

2024-02-15

下一代Windows操作系統提前曝光??微軟首個為Windows而設的智能體(Agent) 亮相:基於GPT-4V,一句話就可以在多個應用中無縫切換,完成復雜任務。整個過程無需人為幹預,其執行成功率和效率是GPT-4的兩倍,GPT-3.5的四

2024-03-08

聯合創始人Mustafa Suleyman共同創辦,2023年6月獲得英偉達、微軟等參投的13億美元融資,估值達40億美元(折合約287億人民幣),是當前全球第四大生成式AI獨角獸。它是OpenAI的大語言模型勁敵之一,以“為每個人創造一個個性化的

2024-04-09

itz、紅杉資本、Y Combinator等頂級風投玩傢,還有英偉達、微軟等行業巨頭,就連OpenAI CEO Sam Altman本人也出現在投資方名單中。除去出走創業,還有5位員工未披露最新的工作動向,或者選擇加入其他AI創企、獨立研究機構等。可以

2024-04-23

就是測試集應涵蓋廣泛的現實世界話題。為確保這一點,團隊采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用 UMAP 降低維度,並使用基於層次結構的模型聚類算法 (HDBSCAN) 來

2023-02-10

如此抵觸,害怕泄密隻是一方面,更關鍵的原因是OpenAI和微軟之間過於親密的關系。在AI這個賽道,微軟明顯落後於Google和Meta,但微軟選擇一個更省事的方式,砸錢!2019年,微軟向OpenAI投資10億美元。2023年,微軟將投資金額提

2023-12-07

正式發佈卻似乎因為各種原因而屢遭推遲。為與 OpenAI 和微軟展開競爭,Google果斷從 PaLM 2 切換到 Gemini 上,甚至在今年 4 月份直接把Google大腦(Google Brain)和 DeepMind 合並在一起,Gemini 就由新組成的 Google DeepMind 匯合兩個實驗室

2023-11-09

DeepMind聯合創始人謝恩·萊格(ShaneLegg)帶領的DeepMind研究團隊發佈論文。當地時間11月4日,GoogleDeepMind聯合創始人謝恩·萊格(ShaneLegg)帶領的DeepMind研究團隊發佈論文(LevelsofAGI:OperationalizingProgressonthePathtoAGI),提出對通用人工