高數考不好,不知道是多少人的噩夢。如果說你高數考得還不如AI好,是不是就更難以接受瞭?沒錯,來自OpenAI的Codex已經在MIT的7門高數課程題目中正確率達到81.1%,妥妥的MIT本科生水平。
文/夢晨 豐色
課程范圍從初級微積分到微分方程、概率論、線性代數都有,題目形式除瞭計算、甚至還有畫圖。
這件事最近還登上瞭微博熱搜。
△“僅”得81分,對AI的期待也太高瞭吧
現在,Google那邊又傳來瞭最新大消息:
不止數學,我們的AI甚至在整個理工科上,都已經拿到最高分啦!
看來在培養“AI做題傢”這件事上,科技巨頭們已經卷出瞭新高度。
Google這個最新AI做題傢,參加瞭四門考試。
數學競賽考試MATH,以往隻有三屆IMO金牌得主才拿過90分,普通的計算機博士甚至隻能拿到40分左右。
至於別的AI做題傢們,以前最好成績隻有6.9分……
但這一次,Google新AI卻刷到瞭50分,比計算機博士還高。
綜合考試MMLU-STEM,內含數理化生、電子工程和計算機科學,題目難度達到高中甚至大學水平。
這一次,GoogleAI“滿血版”,也都拿到瞭做題傢中的最高分,直接將分數拉高瞭20分左右。
小學數學題GSM8k,直接將成績拉升到78分,相比之下GPT-3還沒及格(僅55分)。
就連MIT本科和研究生學的固體化學、天文學、微分方程和狹義相對論等課程,Google新AI也能在200多道題中,答出將近三分之一。
最重要的是,與OpenAI憑借“編程技巧”取得數學高分的方法不同,GoogleAI這一次,走的可是“像人一樣思考”的路子——
它像一個文科生一樣隻背書不做題,卻掌握瞭更好的理工科解題技巧。
值得一提的是,論文一作Lewkowycz還分享瞭一個論文中沒寫到的亮點:
我們的模型參加瞭今年的波蘭數學高考,成績比全國平均分還要高。
看到這裡,有的傢長已經坐不住瞭。
如果告訴我女兒這件事,我怕她用AI做作業。但如果不告訴她,就沒有讓她對未來做好準備!
在業內人士看來,隻靠語言模型,不對算數、邏輯和代數做硬編碼達到這種水平,是這項研究最驚艷的地方。
那麼,這是怎麼做到的?
AI狂讀arXiv上200萬篇論文
新模型Minerva,基於Pathway架構下的通用語言模型PaLM改造而來。
分別在80億、600億和5400億參數PaLM模型的基礎上做進一步訓練。
Minerva做題與Codex的思路完全不同。
Codex的方法是把每道數學題改寫成編程題,再靠寫代碼來解決。
而Minerva則是狂讀論文,硬生生按理解自然語言的方式去理解數學符號。
在PaLM的基礎上繼續訓練,新增的數據集有三部分:
主要有arXiv上收集的200萬篇學術論文,60GB帶LaTeX公式的網頁,以及一小部分在PaLM訓練階段就用到過的文本。
通常的NLP數據清洗過程會把符號都刪掉隻保留純文字,導致公式不完整,比如愛因斯坦著名的質能方程隻剩下瞭Emc2。
但Google這次把公式都保留,和純文本一樣走一遍Transformer的訓練程序,讓AI像理解語言一樣去理解符號。
與之前的語言模型相比,這是Minerva在數理問題上表現更好的原因之一。
但與專門做數學題的AI相比,Minerva的訓練中沒有顯式的底層數學結構,這帶來一個缺點和一個優點。
缺點,是可能出現AI用錯誤的步驟得到正確答案的情況。
優點,是可以適應不同學科,即使有些問題無法用正規的數學語言表達出來,也可以結合自然語言理解能力解出來。
到瞭AI的推理階段,Minerva還結合瞭多個最近Google開發的新技術。
先是Chain of Thought思維鏈路提示,今年一月由Google大腦團隊提出。
具體來說就是在提問的同時給一個分步驟回答的示例來引導。AI在做題時就可以采用類似的思考過程,正確回答本來會答錯的題目。
再有是Google和MIT合作開發的Scrathpad草稿紙方法,讓AI把分步計算的中間結果臨時存儲起來。
最後還有Majority Voting多數表決方法,也是今年3月才發表的。
讓AI多次回答同一個題目,選擇答案中出現頻率最高的。
所有這些技巧全用上以後,5400億參數的Minerva在各種測試集中達到SOTA。
甚至80億參數版的Minerva,在競賽級數學題和MIT公開課問題中,也能達到GPT-3最新更新的davinci-002版本水平。
說瞭這麼多,Minerva具體都能做出哪些題目?
對此Google也開放出瞭樣例集,一起來看一下。
數理化生全能,連機器學習都會
數學上,Minerva可以像人類一樣按步驟計算數值,而不是直接暴力求解。
對於應用題,可以自己列出方程式並做簡化。
甚至還可以推導證明。
物理上,Minerva可以求中性氮基態(Z = 7)電子的總自旋量子數這樣的大學水平題目。
生物和化學上,Minerva憑借語言理解能力也可以做各種選擇題。
以下哪種點突變形式對DNA序列形成的蛋白質沒有負面影響?
以下哪種是放射性元素?
以及天文學:為什麼地球擁有很強的磁場?
在機器學習方面,它通過解釋“分佈外樣本檢測”的具體含義,從而正確瞭給出這個名詞的另一種說法。
……
不過,Minerva有時也會犯一些低級錯誤,比如把等式兩邊的√給消瞭。
除此之外,Minerva會出現的推理過程錯誤但結果對的“假陽性”情況,比如下面這種,有8%的可能性。
經過分析之後,團隊發現主要的錯誤形式來自計算錯誤和推理錯誤,隻有小部分來自題意理解錯誤和在步驟中使用瞭錯誤的事實等其他情況。
其中計算錯誤可以輕易通過訪問外部計算器或Python解釋器解決,但其他種類的錯誤因為神經網絡規模太大就不太好調整瞭。
總的來看,Minerva的表現讓很多人感到驚艷,紛紛在評論區求API(可惜Google目前並沒有公開計劃)。
有的網友想到,加上前幾日讓GPT-3解題正確率暴漲61%的“哄一哄”大法,它的準確率或許還可以再提高?
不過作者的回應是,哄一哄方法屬於零樣本學習,再強恐怕也比不上帶4個例子的少樣本學習。
還有網友提出,既然它可以做題,那麼能不能反過來出題?
事實上用AI給大學生出題這件事,MIT已經聯合OpenAI在做瞭。
他們把人類出的題和AI出的題混在一起,找學生來做問卷調查,大傢也很難分清一道題是不是AI出的。
總之現在的情況,除瞭搞AI的在忙著讀這篇論文以外。
學生們盼著有一天能用AI做作業。
老師們也盼著有一天能用AI出卷子。