內部人擔憂“威脅人類生存” OpenAI的神秘重大突破“Q*算法”究竟是什麼?


隨著OpenAICEO奧特曼回歸,宮鬥大戲告一段落,但仍留下許多未接的謎題。其中最為關鍵的,就是當初奧特曼為何會被董事會解雇。昨日,有媒體透露,就在奧特曼被開除四天前,幾名研究人員向董事會發出一封信,警告一項強大的AI發現(Q*)可能威脅全人類。此外,OpenAICTOMiraMurati此前在致員工的內部信件中提到一個代號為“Q*”的項目。據她稱,該項目為“董事會對奧特曼的一系列不滿中的因

據多傢媒體猜測,Q*讓OpenAI實現AGI的步伐大大提速,但奧特曼可能沒有和董事會詳細披露Q*的進展到底有多大,這也符合董事會在解雇奧特曼時所說的“在與董事會溝通時沒有始終保持坦誠”。

就在被解雇之前,奧特曼還在公開活動中表示:

“在OpenAI的歷史上,我們已經取得4次突破,最近一次是在過去的幾周裡。當我們把無知的面紗撕下,把發現的前沿向前推進時,我就在房間裡。”

所謂的第四次突破,指的可能就是Q*項目。

什麼是 Q*?

什麼是Q*?

Q*讀作Q star,目前OpenAI內部沒有任何關於Q*的詳細信息流出。

據一些業內人士猜測,它可能是是機器學習算法Q-Learning(Q學習)的同義詞,也許是OpenAI借助Q學習算法打造的新模型的代號,也許是一個相關的項目名稱。

科技博客PC Guide指出,OpenAI使用的Q*指的大概是貝爾曼方程中的最優值函數,Q*可能代表OpenAI找到或接近效率優化算法的最優解。

根據天風證券(3.260, -0.04, -1.21%)分析師孔蓉的說法:

Q學習是一種基於強化學習的算法,用來在馬爾科夫決策過程中求解最優控制問題。它的目標是通過學習最優策略,使智能體在未知環境中做出最佳選擇。

Q學習依據貝爾曼方程更新狀態-動作對應的Q值,逼近最優值函數。智能體通過與環境交互,觀察到新的狀態和獎勵,來更新執行各個動作的Q值。

所謂貝爾曼方程,也被稱為動態規劃方程,是指數學傢理查德·貝爾曼提出的用於解決復雜多階段問題的公式,通過求解該方程可以找到最優值函數和最優策略。


運行算法的人(或計算機)可以輸入一個目標函數,例如“旅行時間最短、成本最低、利潤最大、效用最大”等。然後,算法將決定采取何種最佳行動來實現預期結果。

簡單來說,Q學習可以通過探索所有可能的路徑,學習到通往預期獎勵的最短路徑(最短路線),通過試錯找到更優化的路徑,並隨著時間的推移達到優化狀態,每次都做出更好的決策。

據媒體報道,在奧特曼被解雇之前,OpenAI在內部對Q*進行演示,顯示Q*能夠解決小學程度的數學問題。

雖然完成小學數學題聽起來沒什麼出色之處,但需要強調的是,包括GPT-4在內,世界上最先進的大語言模型通常都更擅長基於語言的任務,即使面對加減乘除這樣的基礎數學都會犯錯誤。

如果真如報道所說,Q*有能力處理數學問題並給出明確答案,即使隻是小學數學,那也意味著巨大的飛躍。基礎數學能力或意味著與人類智能相媲美的推理能力,也意味著OpenAI朝著其設定的AGI目標邁出一大步。

另外據一些網友猜測,Q*背後的模型模型可能已經具備自主學習和自我改進的能力,或者能夠通過評估其行為的長期後果,在廣泛的場景中做出復雜的決策,可能已具備輕微自我意識。

最樂觀、或者最可怕的假設就是,OpenAI已經完成打造AGI的基礎工作。


聽起來很離譜,但確實有可能是真的。

就在一個月前,華爾街見聞曾轉載過MIT科技評論對OpenAI首席科學傢Ilya Sutskever的專訪,他當時稱,ChatGPT可能已經有意識

Q*會產生哪些後續影響?毀滅人類?

目前,OpenAI所給出的官方回應是,奧特曼被解雇,與公司的研究進展無關。

但仍然擋不住網友天馬行空的猜想和陰謀論。

一位Reddit網友說,對於AI界而言,Q*的出現可能就像是,一個人想敲石頭生火,敲幾年都沒什麼成果,結果上禮拜石頭突然敲出火星。


另一位Reddit網友已經開始想象AGI誕生之後的場景:

AI開始發明東西,破解互聯網上的一切加密,寫出以人類的數學能力理解不的程序...


不過,理性地想,AGI的誕生大概率不會這麼快。Q*可能隻是人類以後漫長探索征程的開始。

根據天風證券分析師孔蓉的觀察,OpenAI近期的招聘進程表明其在進一步增強強化學習系統的決策能力。

OpenAI近期持續引入強化學習和決策算法研究人員。23年7月份新引進的研究員Noam Brown,開展多步推理和多智能體互動方面的研究。

Noam Brown 此前參與發表的工作將語言模型與規劃和強化學習算法結合,大幅提升AI在復雜策略遊戲中的表現,開發出第一批在德撲無上限遊戲中擊敗頂級玩傢的AI。

OpenAI 近期於 5 月份發佈的研究也表明,調整訓練方式和引入更大規模的監督數據,將會顯著提升強化學習系統的數學推理能力。OpenAI 引入針對過程的強化學習監督,進一步提升大模型在數據推理與計算的準確性。

據孔融推測,強化學習與決策算法進步或帶來Q*大模型能力突破,GPT4 + 強化學習和決策算法,或能實現更強的AI Agent能力。


相關推薦

2023-04-15

enAI花很長時間研究GPT-4的安全性,接受外部審核,也進行內部的紅隊演習。總之,OpenAI已經盡最大努力去解,這個模型究竟發生什麼,而且讓整個過程謹慎再謹慎。他自豪地表示:自從我們發佈GPT-4以後,一切都很不錯。的確,G

2024-03-02

出一封重量級的秘密信件,透露OpenAI的成立初衷。OpenAI發內部公開信堅決反駁。現在的矛盾焦點就是:GPT-4究竟是AGI嗎?好久沒見這麼精彩的大戲。就在昨天下午,馬斯克一紙長達46頁的訴狀,把OpenAI實體(共8個)、首席執行官S

2023-09-09

另一方面來說,我們現在對於生物的認知水平有限,目前人類發現的物種也有限,大自然遠比我們想象中復雜。探索神秘生物的意義遠不止滿足好奇心這麼簡單,探索自然、認識地球傢園,對生命起源及進化、生物多樣性等保持

2024-03-06

奧特曼(SamAltman)表示,針對去年底他被解雇後再復職的內部調查即將結束。盡管一些員工在會上提出有關調查的問題,奧特曼對此隻是輕描淡寫地表示調查“將很快結束”,並未向員工透露更多信息。奧特曼定期舉辦此類會議

2024-03-07

的在職高管、離職高管及眾多一線員工後發現,盡管微軟內部對於人工智能的未來充滿樂觀,但現實並不那麼光鮮亮麗,通往成功的道路也不那麼清晰。出於保密考慮,這些人士選擇匿名分享關於微軟人工智能未來的展望,以及

2023-05-11

言模型的能力越來越強,部署也越來越廣泛,但我們對其內部工作方式的理解仍然非常有限。”由於 AI 的“黑盒”性質,人們很難分辨大模型的輸出結果是否采用帶有偏見性質的方法,也難以區分其正確性,因而“可解釋性”

2024-03-03

行,行必果。當然, OpenAI 也完全沒在慫,據 Axios 消息,內部堅決否認指控。OpenAI 的首席執行官,還嘲諷:“ 可能源於其如今沒有參與公司的遺憾。”奧特曼也在推上回復道:隨時奉陪。不過,世超看完這份 1.2 萬字的訴訟文

2022-08-15

份額第一。”事實上,擺在國產手機面前的確實是艱難的生存局面。首先,中低端市場競爭激烈,就連蘋果也意圖在中端市場分得一杯羹,另外高端市場也日漸飽和,而對於國內手機廠商而言,具有成長空間的領域便是唯一未站

2024-03-14

麼,Sora究竟是如何實現這一神奇轉換的呢?盡管解釋其內部工作原理可能比解釋美人魚的進化還要復雜,但簡單來說,Sora背後的AI模型通過分析大量視頻數據,學會識別和理解各種物體與動作。輸入文本提示後,模型能夠迅速

2024-06-12

夥伴,蘋果與OpenAI的合作無疑給微軟帶來競爭壓力,微軟內部一些人擔憂,這可能會影響微軟獨傢獲取OpenAI技術的能力,進而影響其在消費級AI產品領域的佈局。對於OpenAI來說,將其產品整合到蘋果產品中,能讓它接觸到比現在

2023-12-03

。而C計劃,就是聘請Altman和他最得力的同事們,在微軟內部重建一個OpenAI。這就意味著,微軟可以將任何新技術出售給用戶,這將是一筆巨大的意外之財。視頻通話中的高管們認為,這三個計劃都很不錯。這一戰略背後的信念

2023-11-11

d化。到AI創新浪潮中,蘋果也成追隨者。彭博社稱,蘋果內部團隊正加急測試聊天機器人Apple GPT,並計劃將全新生成式AI能力塞進“全傢桶”。記者古爾曼曾報道稱,蘋果內部已經建立大語言模型Ajax,並推出一個被稱為“Apple GPT

2023-11-24

位研究人員給董事會寫的警告信可能是整個事件導火索:內部名為Q*(發音為Q-Star)的下一代AI模型,過於強大和先進,可能會威脅人類。Q*正是由這場風暴的中心人物,首席科學傢IlyaSutskever主導。人們迅速把奧特曼此前在APEC峰

2022-07-06

近日,鐘薛高雪糕頻頻引起爭議,尤其是高溫、火燒之下都不化,更讓人對其高價下的質量問題憂慮不已。有網友用打火機點燃鐘薛高雪糕,結果疑似燒不化,有黑焦但沒有大量液體滴落,反而有冒煙現象。按照鐘薛高的官方說