11月8日消息,三名谷歌研究人員在最新提交給預印本文獻庫(ArXiv)的一篇論文中指出,人工智能領域的底層技術深度神經網絡transformer並不擅長歸納概括。Transformer是ChatGPT等人工智能工具背後大語言模型的基礎。
在11月1日提交給ArXiv的一篇新論文中,三名作者Steve Yadlowsky、Lyric Doshi和Nilesh Tripuraneni寫道:“當任務或功能需要超出預訓練數據的范圍時,transformer出現各種故障模式,發現即使是簡單的任務外延也會降低它們的歸納能力。”
根據這篇論文的說法,深度神經網絡transformer所擅長的是執行與訓練數據相關的任務,並不太擅長處理超出這個范圍的任務。
對於那些希望實現通用人工智能(AGI)的人來說,這個問題不容忽視。通用人工智能是技術人員用來描述可以完成任何人類所做事情的假想人工智能。就目前而言,人工智能非常擅長執行特定任務,但不像人類那樣能跨領域轉移技能。
華盛頓大學計算機科學與工程榮譽教授佩德羅·多明戈斯(Pedro Domingos)表示,新研究意味著“在這一點上,我們不應該對即將到來的人工智能過於瘋狂。”
人們將AGI吹捧為人工智能領域的終極目標,從理論上講,其代表著人類創造出與自己一樣聰明或比自己更聰明的東西。許多投資者和技術人員都在為此投入大量時間和精力。
本周一,OpenAI首席執行官薩姆·奧爾特曼(Sam Altman)就與微軟首席執行官薩蒂亞·納德拉(Satya Nadella)共同登臺,重申他關於“合作打造AGI”的願景。
實現這一目標意味著讓人工智能完成許多人類大腦可以完成的歸納性任務,包括適應不熟悉的場景、創建類比、處理新信息以及抽象思維等等。
但是,正如研究人員指出的那樣,如果這項技術連“簡單的任務外延”都難以實現,那麼顯然我們離目標還很遠。
普林斯頓大學計算機科學教授阿爾溫德·納拉亞南(Arvind Narayanan)在社交媒體平臺X上寫道:“這篇論文甚至與大語言模型無關,但似乎是打破集體信念泡沫的最後一根稻草,讓許多人接受大語言模型的局限性。”“該是清醒的時候”。
英偉達高級人工智能科學傢Jin Fan質疑為什麼這篇論文的發現會讓人們感到驚訝,因為“transformer本來就不是靈丹妙藥”。
多明戈斯表示,這項研究凸顯出,對於一項被吹捧為通向AGI之路的技術潛力,“很多人都感到非常困惑”。
他補充說:“這是篇剛剛發表的論文,有趣的是誰會感到驚訝,誰不會感到驚訝。”
雖然多明戈斯承認transformer是一項先進的技術,但他相信很多人認為這種深度神經網絡比實際要強大得多。
他說:“問題是神經網絡非常不透明,而且這些大語言模型都是在難以想象的大量數據上訓練的,這讓很多人對它們能做什麼和不能做什麼感到非常困惑。”“他們開始總認為自己可以創造奇跡。”
更高級的人工智能可能會在歸納概括方面做得更好。谷歌研究人員在研究中使用的是GPT-2比例模型,而不是更主流的GPT-4比例模型。
人工智能初創企業Lamini AI首席執行官莎朗·周(Sharon Zhou)認為,她自己並不覺得transformer很難歸納概括是個問題。
“這就是為什麼我創辦一傢訓練模型的公司,而不僅僅是向它們提問,這樣它們就能學到新東西,”她說。“它們仍然非常有用,仍然可以引導和調整。”