AI做題傢卷瘋瞭：高數考試正確率81%，競賽題成績超過計算機博士

2022-07-01 來自量子位發表於業界精選

高數考不好，不知道是多少人的噩夢。如果說你高數考得還不如AI好，是不是就更難以接受瞭？沒錯，來自OpenAI的Codex已經在MIT的7門高數課程題目中正確率達到81.1%，妥妥的MIT本科生水平。

文/夢晨豐色

課程范圍從初級微積分到微分方程、概率論、線性代數都有，題目形式除瞭計算、甚至還有畫圖。

這件事最近還登上瞭微博熱搜。

△“僅”得81分，對AI的期待也太高瞭吧

△“僅”得81分，對AI的期待也太高瞭吧

現在，Google那邊又傳來瞭最新大消息：

不止數學，我們的AI甚至在整個理工科上，都已經拿到最高分啦！

看來在培養“AI做題傢”這件事上，科技巨頭們已經卷出瞭新高度。

Google這個最新AI做題傢，參加瞭四門考試。

數學競賽考試MATH，以往隻有三屆IMO金牌得主才拿過90分，普通的計算機博士甚至隻能拿到40分左右。

至於別的AI做題傢們，以前最好成績隻有6.9分……

但這一次，Google新AI卻刷到瞭50分，比計算機博士還高。

綜合考試MMLU-STEM，內含數理化生、電子工程和計算機科學，題目難度達到高中甚至大學水平。

這一次，GoogleAI“滿血版”，也都拿到瞭做題傢中的最高分，直接將分數拉高瞭20分左右。

小學數學題GSM8k，直接將成績拉升到78分，相比之下GPT-3還沒及格（僅55分）。

就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程，Google新AI也能在200多道題中，答出將近三分之一。

最重要的是，與OpenAI憑借“編程技巧”取得數學高分的方法不同，GoogleAI這一次，走的可是“像人一樣思考”的路子——

它像一個文科生一樣隻背書不做題，卻掌握瞭更好的理工科解題技巧。

值得一提的是，論文一作Lewkowycz還分享瞭一個論文中沒寫到的亮點：

我們的模型參加瞭今年的波蘭數學高考，成績比全國平均分還要高。

看到這裡，有的傢長已經坐不住瞭。

如果告訴我女兒這件事，我怕她用AI做作業。但如果不告訴她，就沒有讓她對未來做好準備！

在業內人士看來，隻靠語言模型，不對算數、邏輯和代數做硬編碼達到這種水平，是這項研究最驚艷的地方。

那麼，這是怎麼做到的？

AI狂讀arXiv上200萬篇論文

新模型Minerva，基於Pathway架構下的通用語言模型PaLM改造而來。

分別在80億、600億和5400億參數PaLM模型的基礎上做進一步訓練。

Minerva做題與Codex的思路完全不同。

Codex的方法是把每道數學題改寫成編程題，再靠寫代碼來解決。

而Minerva則是狂讀論文，硬生生按理解自然語言的方式去理解數學符號。

在PaLM的基礎上繼續訓練，新增的數據集有三部分：

主要有arXiv上收集的200萬篇學術論文，60GB帶LaTeX公式的網頁，以及一小部分在PaLM訓練階段就用到過的文本。

通常的NLP數據清洗過程會把符號都刪掉隻保留純文字，導致公式不完整，比如愛因斯坦著名的質能方程隻剩下瞭Emc2。

但Google這次把公式都保留，和純文本一樣走一遍Transformer的訓練程序，讓AI像理解語言一樣去理解符號。

與之前的語言模型相比，這是Minerva在數理問題上表現更好的原因之一。

但與專門做數學題的AI相比，Minerva的訓練中沒有顯式的底層數學結構，這帶來一個缺點和一個優點。

缺點，是可能出現AI用錯誤的步驟得到正確答案的情況。

優點，是可以適應不同學科，即使有些問題無法用正規的數學語言表達出來，也可以結合自然語言理解能力解出來。

到瞭AI的推理階段，Minerva還結合瞭多個最近Google開發的新技術。

先是Chain of Thought思維鏈路提示，今年一月由Google大腦團隊提出。

具體來說就是在提問的同時給一個分步驟回答的示例來引導。AI在做題時就可以采用類似的思考過程，正確回答本來會答錯的題目。

再有是Google和MIT合作開發的Scrathpad草稿紙方法，讓AI把分步計算的中間結果臨時存儲起來。

最後還有Majority Voting多數表決方法，也是今年3月才發表的。

讓AI多次回答同一個題目，選擇答案中出現頻率最高的。

所有這些技巧全用上以後，5400億參數的Minerva在各種測試集中達到SOTA。

甚至80億參數版的Minerva，在競賽級數學題和MIT公開課問題中，也能達到GPT-3最新更新的davinci-002版本水平。

說瞭這麼多，Minerva具體都能做出哪些題目？

對此Google也開放出瞭樣例集，一起來看一下。

數理化生全能，連機器學習都會

數學上，Minerva可以像人類一樣按步驟計算數值，而不是直接暴力求解。

對於應用題，可以自己列出方程式並做簡化。

甚至還可以推導證明。

物理上，Minerva可以求中性氮基態（Z = 7）電子的總自旋量子數這樣的大學水平題目。

生物和化學上，Minerva憑借語言理解能力也可以做各種選擇題。

以下哪種點突變形式對DNA序列形成的蛋白質沒有負面影響？

以下哪種是放射性元素？

以及天文學：為什麼地球擁有很強的磁場？

在機器學習方面，它通過解釋“分佈外樣本檢測”的具體含義，從而正確瞭給出這個名詞的另一種說法。

……

不過，Minerva有時也會犯一些低級錯誤，比如把等式兩邊的√給消瞭。

除此之外，Minerva會出現的推理過程錯誤但結果對的“假陽性”情況，比如下面這種，有8%的可能性。

經過分析之後，團隊發現主要的錯誤形式來自計算錯誤和推理錯誤，隻有小部分來自題意理解錯誤和在步驟中使用瞭錯誤的事實等其他情況。

其中計算錯誤可以輕易通過訪問外部計算器或Python解釋器解決，但其他種類的錯誤因為神經網絡規模太大就不太好調整瞭。

總的來看，Minerva的表現讓很多人感到驚艷，紛紛在評論區求API（可惜Google目前並沒有公開計劃）。

有的網友想到，加上前幾日讓GPT-3解題正確率暴漲61%的“哄一哄”大法，它的準確率或許還可以再提高？

不過作者的回應是，哄一哄方法屬於零樣本學習，再強恐怕也比不上帶4個例子的少樣本學習。

還有網友提出，既然它可以做題，那麼能不能反過來出題？

事實上用AI給大學生出題這件事，MIT已經聯合OpenAI在做瞭。

他們把人類出的題和AI出的題混在一起，找學生來做問卷調查，大傢也很難分清一道題是不是AI出的。

總之現在的情況，除瞭搞AI的在忙著讀這篇論文以外。

學生們盼著有一天能用AI做作業。

老師們也盼著有一天能用AI出卷子。

相關推薦

ChatGPT大戰司法考試：無需微調，一類試題達到人類水平

2023-01-04

ChatGPT的下一個新身份——做題傢！這不，它已經在人類各個考試中開“卷”。律師、醫生、註會什麼的，它都開始紛紛展露身手。比如，全球考生都頭疼的司法考試，現在ChatGPT在兩項試題達到合格率，其中一項還跟人類水平持

北大博士挑戰薑萍競賽題 7題僅對1道：由衷的佩服

2024-06-19

在近日備受矚目的阿裡巴巴全球數學競賽中，一位年僅17歲的中專在讀生薑萍，以她驚人的數學才華和出色的表現，成功闖入競賽的12強，成為社交平臺上熱議的焦點。薑萍的成就不僅僅在於她以93分的高分進入決賽階段，更在於

AI考公考編指日可待微軟華人團隊發佈全新基準AGIEval 專為人類考試而生

2023-05-11

於評估基礎模型在“以人為本”（human-centric）的標準化考試中，如高考、公務員考試、法學院入學考試、數學競賽和律師資格考試中的表現。論文鏈接：https://arxiv.org/pdf/2304.06364.pdf數據鏈接：https://github.com/microsoft/AGIEval研究人

中科大被CCPC禁賽2年，隻因用Word翻譯賽題？

2022-09-14

行為。soulmate提出的第二個“華點”是，CCPC所采用的在線考試平臺PTA，是否有權力當場執行判罰？目前，PTA似乎自稱擁有這種權力，不過需要主考甚至cyll本人當場認可。但是，技術平臺擁有的這種賽事行為處置權，有授權文件

最新GPT-4在律考中擊敗90%人類，它到底強在哪？

2023-03-15

表達該技術對目前人類生產生活的影響。GPT-4有多強，GRE考試接近滿分，律考比肩頂級律師，隨手畫個草圖就能做出同款網頁。當國內還在熱議人工智能對話大模型產品ChatGPT時，背後核心預訓練模型技術GPT卻突然重磅升級。北京

當你還在討論分析ChatGPT，有人開始用它“搞錢”

2023-02-07

好。程序員現在心裡默默有點緊張。2能寫論文和考試的AI做題傢不少大學教授也發現ChatGPT能夠瞞過老師通過考試。比如賓夕法尼亞大學沃頓商學院一位教授和明尼蘇達大學的一位法學教授使用ChatGPT都通過專業考試測試。據媒體

誰在“吊打”ChatGPT？

2023-11-09

提升模型的泛化能力（舉一反三）沒用，間接作弊有點像做題傢，對提升學生真實的素質弊大於利。”為讓“用戶謹慎看待以下榜單”，C-Eval團隊不得不將榜單拆分成兩個，一個是模型已公開的，一個是未公開的。結果，那些得

專傢說經常用AI寫論文會變蠢？嚇得我趕緊打開ChatGPT查一下

2024-04-02

力遠不止降重這麼簡單，小到寫一篇論文，大到通過司法考試，它都能做到。沃頓商學院教授發現，ChatGPT在MBA課程運營管理中的考試成績超過不少學生。而能力更強的GPT4，剛發佈時，就以平均分75的成績通過美國法考，超過90%

OpenAI強敵出手：Inflection-2.5 訓練計算量僅40%、性能直逼GPT-4

2024-03-08

測試還包括兩種不同的STEM（科學、技術、工程、數學）考試的結果：匈牙利數學考試和物理GRE（物理研究生入學考試）的表現。在BIG-Bench-Hard（大語言模型難以解決的BIG-Bench問題的子集）上，Inflection-2.5性能比Inflection-1提高10%以

ChatGPT大升級？它去考研能考上物理所嗎？

2023-03-17

能力有限，但那是之前的gpt-3.5版本。gpt-4和gpt-3.5在各項考試中的成績對比根據官方的宣傳，新推出的gpt-4在各項考試中的成績遠超gpt-3.5，在很多專業和學術上的表現達到人類水平，甚至在GRE(美國研究生入學考試)的兩科中已經達

未來已來？GPT-4剛上線就引發馬斯克焦慮一文梳理其與3.5版本區別

2023-03-15

仍有許多局限性，如社會偏見、幻覺和對抗性提示。矽谷做題傢GPT-4現在最熱門的話題莫過於它強大的應試能力。根據OpenAI的評估，GPT-4已經能輕松通過美國的律師考試，且考進前10%的排名。相比之下，它的上一代模型GPT-3.5隻能

新的人工智能算法可預測運動隊的動作準確率達80%

2022-10-13

的人工智能算法可以預測排球運動員的比賽中的行動，準確率超過80%。現在，開發該算法的康奈爾智能系統和控制實驗室正在與BigRed冰球隊合作，擴大該研究項目的應用。這些算法的獨特之處在於，它們對行動預測采取一種全面

GPT-4震撼發佈：多模態大模型直接升級ChatGPT、必應，開放API

2023-03-15

PT 已經不會在計算上胡言亂語：還是太簡單，那直接讓它做題，還是個物理題：GPT-4 看懂法語題目，並完整解答：GPT-4 可以理解一張照片裡“有什麼不對勁的地方”：GPT-4 還可以量子速讀看論文，如果你給它 InstructGPT 的論文，

X射線視覺：MIT發明的增強現實頭顯使人們能夠看到隱藏的物品

2023-03-03

落入用戶手中，被稱為X-AR的頭顯就會驗證他們是否拿起正確的物品。當研究人員在一個類似倉庫的環境中測試X-AR時，該頭顯可以將隱藏的物品定位到平均9.8厘米以內。它驗證用戶拾取正確物品的準確率為96%。X-AR可以幫助電子商

熱門推薦