內部人擔憂“威脅人類生存” OpenAI的神秘重大突破“Q*算法”究竟是什麼？

2023-11-24 來自華爾街見聞發表於業界精選

隨著OpenAICEO奧特曼回歸，宮鬥大戲告一段落，但仍留下許多未接的謎題。其中最為關鍵的，就是當初奧特曼為何會被董事會解雇。昨日，有媒體透露，就在奧特曼被開除四天前，幾名研究人員向董事會發出一封信，警告一項強大的AI發現（Q*）可能威脅全人類。此外，OpenAICTOMiraMurati此前在致員工的內部信件中提到一個代號為“Q*”的項目。據她稱，該項目為“董事會對奧特曼的一系列不滿中的因

據多傢媒體猜測，Q*讓OpenAI實現AGI的步伐大大提速，但奧特曼可能沒有和董事會詳細披露Q*的進展到底有多大，這也符合董事會在解雇奧特曼時所說的“在與董事會溝通時沒有始終保持坦誠”。

就在被解雇之前，奧特曼還在公開活動中表示：

“在OpenAI的歷史上，我們已經取得4次突破，最近一次是在過去的幾周裡。當我們把無知的面紗撕下，把發現的前沿向前推進時，我就在房間裡。”

所謂的第四次突破，指的可能就是Q*項目。

什麼是 Q*？

什麼是Q*？

Q*讀作Q star，目前OpenAI內部沒有任何關於Q*的詳細信息流出。

據一些業內人士猜測，它可能是是機器學習算法Q-Learning（Q學習）的同義詞，也許是OpenAI借助Q學習算法打造的新模型的代號，也許是一個相關的項目名稱。

科技博客PC Guide指出，OpenAI使用的Q*指的大概是貝爾曼方程中的最優值函數，Q*可能代表OpenAI找到或接近效率優化算法的最優解。

根據天風證券(3.260, -0.04, -1.21%)分析師孔蓉的說法：

Q學習是一種基於強化學習的算法，用來在馬爾科夫決策過程中求解最優控制問題。它的目標是通過學習最優策略，使智能體在未知環境中做出最佳選擇。
Q學習依據貝爾曼方程更新狀態-動作對應的Q值，逼近最優值函數。智能體通過與環境交互，觀察到新的狀態和獎勵，來更新執行各個動作的Q值。

所謂貝爾曼方程，也被稱為動態規劃方程，是指數學傢理查德·貝爾曼提出的用於解決復雜多階段問題的公式，通過求解該方程可以找到最優值函數和最優策略。

運行算法的人（或計算機）可以輸入一個目標函數，例如“旅行時間最短、成本最低、利潤最大、效用最大”等。然後，算法將決定采取何種最佳行動來實現預期結果。

簡單來說，Q學習可以通過探索所有可能的路徑，學習到通往預期獎勵的最短路徑（最短路線），通過試錯找到更優化的路徑，並隨著時間的推移達到優化狀態，每次都做出更好的決策。

據媒體報道，在奧特曼被解雇之前，OpenAI在內部對Q*進行演示，顯示Q*能夠解決小學程度的數學問題。

雖然完成小學數學題聽起來沒什麼出色之處，但需要強調的是，包括GPT-4在內，世界上最先進的大語言模型通常都更擅長基於語言的任務，即使面對加減乘除這樣的基礎數學都會犯錯誤。

如果真如報道所說，Q*有能力處理數學問題並給出明確答案，即使隻是小學數學，那也意味著巨大的飛躍。基礎數學能力或意味著與人類智能相媲美的推理能力，也意味著OpenAI朝著其設定的AGI目標邁出一大步。

另外據一些網友猜測，Q*背後的模型模型可能已經具備自主學習和自我改進的能力，或者能夠通過評估其行為的長期後果，在廣泛的場景中做出復雜的決策，可能已具備輕微自我意識。

最樂觀、或者最可怕的假設就是，OpenAI已經完成打造AGI的基礎工作。

聽起來很離譜，但確實有可能是真的。

就在一個月前，華爾街見聞曾轉載過MIT科技評論對OpenAI首席科學傢Ilya Sutskever的專訪，他當時稱，ChatGPT可能已經有意識。

Q*會產生哪些後續影響？毀滅人類？

目前，OpenAI所給出的官方回應是，奧特曼被解雇，與公司的研究進展無關。

但仍然擋不住網友天馬行空的猜想和陰謀論。

一位Reddit網友說，對於AI界而言，Q*的出現可能就像是，一個人想敲石頭生火，敲幾年都沒什麼成果，結果上禮拜石頭突然敲出火星。

另一位Reddit網友已經開始想象AGI誕生之後的場景：

AI開始發明東西，破解互聯網上的一切加密，寫出以人類的數學能力理解不的程序．．．

不過，理性地想，AGI的誕生大概率不會這麼快。Q*可能隻是人類以後漫長探索征程的開始。

根據天風證券分析師孔蓉的觀察，OpenAI近期的招聘進程表明其在進一步增強強化學習系統的決策能力。

OpenAI近期持續引入強化學習和決策算法研究人員。23年7月份新引進的研究員Noam Brown，開展多步推理和多智能體互動方面的研究。
Noam Brown 此前參與發表的工作將語言模型與規劃和強化學習算法結合，大幅提升AI在復雜策略遊戲中的表現，開發出第一批在德撲無上限遊戲中擊敗頂級玩傢的AI。

OpenAI 近期於 5 月份發佈的研究也表明，調整訓練方式和引入更大規模的監督數據，將會顯著提升強化學習系統的數學推理能力。OpenAI 引入針對過程的強化學習監督，進一步提升大模型在數據推理與計算的準確性。

據孔融推測，強化學習與決策算法進步或帶來Q*大模型能力突破，GPT4 + 強化學習和決策算法，或能實現更強的AI Agent能力。

內部人擔憂“威脅人類生存” OpenAI的神秘重大突破“Q*算法”究竟是什麼？

相關推薦

ChatGPT之父Sam Altman首次公開表態：GPT-5根本不存在

馬斯克首曝秘密郵件怒斥奧特曼背叛 OpenAI回應稱他就是後悔

目擊者回應長白山天池現神秘生物：它隻露出頭部留下的水波紋很長

“解雇風波”內部調查即將結束 OpenAI員工擔憂公司不透明

內部人看微軟AI：風光背後內部有疑慮把“噱頭”賣給客戶好嗎？

OpenAI最新“神”操作：讓GPT-4去解釋GPT-2的行為

看完馬斯克控訴OpenAI的萬字報告感覺他可能真被騙慘

旗艦手機賣的越來越貴原因究竟是什麼？

OpenAI CTO：Sora今年將發佈會添加語音功能

蘋果與OpenAI官宣合作：四大科技巨頭深受影響

OpenAI宮鬥終極揭秘：內鬼女董事被曝搶先開除奧特曼微軟成最大贏傢？

創新力時代變革中的蘋果和OpenAI

OpenAI神秘新模型Q*曝光：太強大讓董事會警惕網友稱是天網雛形

鐘薛高裡添加的卡拉膠究竟是啥為什麼火都燒不化？