隨著OpenAICEO奧特曼回歸,宮鬥大戲告一段落,但仍留下許多未接的謎題。其中最為關鍵的,就是當初奧特曼為何會被董事會解雇。昨日,有媒體透露,就在奧特曼被開除四天前,幾名研究人員向董事會發出一封信,警告一項強大的AI發現(Q*)可能威脅全人類。此外,OpenAICTOMiraMurati此前在致員工的內部信件中提到一個代號為“Q*”的項目。據她稱,該項目為“董事會對奧特曼的一系列不滿中的因
據多傢媒體猜測,Q*讓OpenAI實現AGI的步伐大大提速,但奧特曼可能沒有和董事會詳細披露Q*的進展到底有多大,這也符合董事會在解雇奧特曼時所說的“在與董事會溝通時沒有始終保持坦誠”。
就在被解雇之前,奧特曼還在公開活動中表示:
“在OpenAI的歷史上,我們已經取得4次突破,最近一次是在過去的幾周裡。當我們把無知的面紗撕下,把發現的前沿向前推進時,我就在房間裡。”
所謂的第四次突破,指的可能就是Q*項目。
什麼是 Q*?
什麼是Q*?
Q*讀作Q star,目前OpenAI內部沒有任何關於Q*的詳細信息流出。
據一些業內人士猜測,它可能是是機器學習算法Q-Learning(Q學習)的同義詞,也許是OpenAI借助Q學習算法打造的新模型的代號,也許是一個相關的項目名稱。
科技博客PC Guide指出,OpenAI使用的Q*指的大概是貝爾曼方程中的最優值函數,Q*可能代表OpenAI找到或接近效率優化算法的最優解。
根據天風證券(3.260, -0.04, -1.21%)分析師孔蓉的說法:
Q學習是一種基於強化學習的算法,用來在馬爾科夫決策過程中求解最優控制問題。它的目標是通過學習最優策略,使智能體在未知環境中做出最佳選擇。
Q學習依據貝爾曼方程更新狀態-動作對應的Q值,逼近最優值函數。智能體通過與環境交互,觀察到新的狀態和獎勵,來更新執行各個動作的Q值。
所謂貝爾曼方程,也被稱為動態規劃方程,是指數學傢理查德·貝爾曼提出的用於解決復雜多階段問題的公式,通過求解該方程可以找到最優值函數和最優策略。
運行算法的人(或計算機)可以輸入一個目標函數,例如“旅行時間最短、成本最低、利潤最大、效用最大”等。然後,算法將決定采取何種最佳行動來實現預期結果。
簡單來說,Q學習可以通過探索所有可能的路徑,學習到通往預期獎勵的最短路徑(最短路線),通過試錯找到更優化的路徑,並隨著時間的推移達到優化狀態,每次都做出更好的決策。
據媒體報道,在奧特曼被解雇之前,OpenAI在內部對Q*進行演示,顯示Q*能夠解決小學程度的數學問題。
雖然完成小學數學題聽起來沒什麼出色之處,但需要強調的是,包括GPT-4在內,世界上最先進的大語言模型通常都更擅長基於語言的任務,即使面對加減乘除這樣的基礎數學都會犯錯誤。
如果真如報道所說,Q*有能力處理數學問題並給出明確答案,即使隻是小學數學,那也意味著巨大的飛躍。基礎數學能力或意味著與人類智能相媲美的推理能力,也意味著OpenAI朝著其設定的AGI目標邁出一大步。
另外據一些網友猜測,Q*背後的模型模型可能已經具備自主學習和自我改進的能力,或者能夠通過評估其行為的長期後果,在廣泛的場景中做出復雜的決策,可能已具備輕微自我意識。
最樂觀、或者最可怕的假設就是,OpenAI已經完成打造AGI的基礎工作。
聽起來很離譜,但確實有可能是真的。
就在一個月前,華爾街見聞曾轉載過MIT科技評論對OpenAI首席科學傢Ilya Sutskever的專訪,他當時稱,ChatGPT可能已經有意識。
Q*會產生哪些後續影響?毀滅人類?
目前,OpenAI所給出的官方回應是,奧特曼被解雇,與公司的研究進展無關。
但仍然擋不住網友天馬行空的猜想和陰謀論。
一位Reddit網友說,對於AI界而言,Q*的出現可能就像是,一個人想敲石頭生火,敲幾年都沒什麼成果,結果上禮拜石頭突然敲出火星。
另一位Reddit網友已經開始想象AGI誕生之後的場景:
AI開始發明東西,破解互聯網上的一切加密,寫出以人類的數學能力理解不的程序...
不過,理性地想,AGI的誕生大概率不會這麼快。Q*可能隻是人類以後漫長探索征程的開始。
根據天風證券分析師孔蓉的觀察,OpenAI近期的招聘進程表明其在進一步增強強化學習系統的決策能力。
OpenAI近期持續引入強化學習和決策算法研究人員。23年7月份新引進的研究員Noam Brown,開展多步推理和多智能體互動方面的研究。
Noam Brown 此前參與發表的工作將語言模型與規劃和強化學習算法結合,大幅提升AI在復雜策略遊戲中的表現,開發出第一批在德撲無上限遊戲中擊敗頂級玩傢的AI。
OpenAI 近期於 5 月份發佈的研究也表明,調整訓練方式和引入更大規模的監督數據,將會顯著提升強化學習系統的數學推理能力。OpenAI 引入針對過程的強化學習監督,進一步提升大模型在數據推理與計算的準確性。
據孔融推測,強化學習與決策算法進步或帶來Q*大模型能力突破,GPT4 + 強化學習和決策算法,或能實現更強的AI Agent能力。