OpenAI神秘新模型Q*曝光:太強大讓董事會警惕 網友稱是天網雛形


OpenAI宮鬥大戲剛剛落幕,馬上又掀起另一場軒然大波!路透社曝光,在奧特曼被解雇之前,幾位研究人員給董事會寫的警告信可能是整個事件導火索:內部名為Q*(發音為Q-Star)的下一代AI模型,過於強大和先進,可能會威脅人類。Q*正是由這場風暴的中心人物,首席科學傢IlyaSutskever主導。

人們迅速把奧特曼此前在APEC峰會上的發言聯系在一起:

OpenAI歷史上已經有過四次,最近一次就是在過去幾周,當我們推開無知之幕並抵達探索發現的前沿時,我就在房間裡,這是職業生涯中的最高榮譽。”


Q*可能有以下幾個核心特性,被認為是通往AGI或超級智能的關鍵一步。

  • 突破人類數據的限制,可以自己生產巨量訓練數據

  • 有自主學習和自我改進的能力

這則消息迅速引發巨大討論,馬斯克也帶著鏈接來追問。


最新的梗圖則是,好像一夜之間,人們都從研究奧特曼和OpenAI董事會的專傢,變成Q*專傢。


突破數據限制

根據來自The Information的最新消息,Q*的前身是GPT-Zero,這個項目由Ilya Sutskever發起,名字致敬DeepMind的Alpha-Zero。

Alpha-Zero無需學習人類棋譜,通過自己跟自己博弈來掌握下圍棋。

GPT-Zero讓下一代AI模型不用依賴互聯網上抓取的文本或圖片等真實世界數據,而是使用合成數據訓練。

2021年,GPT-Zero正式立項,此後並未有太多直接相關的消息傳出。

但就在幾周前,Ilya在一次訪談中提到:

不談太多細節,我隻想說數據限制是可以被克服的,進步仍將繼續。


在GPT-Zero的基礎上,由Jakub Pachocki和Szymon Sidor開發出Q*。

兩人都是OpenAI早期成員,也都是第一批宣佈要跟著奧特曼去微軟的成員。


Jakub Pachocki上個月剛剛晉升研究總監,過去很多突破包括Dota 2項目和GPT-4的預訓練,他都是核心貢獻者。


Szymon Sidor同樣參與過Dota 2項目,個人簡介是“正在造AGI,一行代碼接一行代碼”。


在路透社的消息中,提到給Q*提供龐大的計算資源,能夠解決某些數學問題。雖然目前數學能力僅達到小學水平,但讓研究者對未來的成功非常樂觀。

另外還提到OpenAI成立“AI科學傢”新團隊,由早期的“Code Gen”和“Math Gen”兩個團隊合並而來,正在探索優化提高AI的推理能力,並最終開展科學探索。

三種猜測

關於Q*到底是什麼沒有更具體的消息傳出,但一些人從名字猜測可能與Q-Learning有關。

Q-Learning可以追溯到1989年,是一種無模型強化學習算法,不需要對環境建模,即使對帶有隨機因素的轉移函數或者獎勵函數也無需特別改動就可以適應。

與其他強化學習算法相比,Q-Learning專註於學習每個狀態-行動對的價值,以決定哪個動作在長期會帶來最大的回報,而不是直接學習行動策略本身。

第二種猜測是與OpenAI在5月發佈的通過“過程監督”而不是“結果監督”解決數學問題有關。


但這一研究成果的貢獻列表中並未出現Jakub Pachocki和Szymon Sidor的名字。


另外有人猜測,7月份加入OpenAI的“德撲AI之父”Noam Brown也可能與這個項目有關。


他在加入時曾表示要把過去隻適用於遊戲的方法通用化,推理可能會慢1000被成本也更高,但可能發現新藥物或證明數學猜想。

符合傳言中“需要巨大計算資源”和“能解決一定數學問題”的描述。


雖然更多的都還是猜測,但合成數據和強化學習是否能把AI帶到下一個階段,已經成業內討論最多的話題之一。

英偉達科學傢范麟熙認為,合成數據將提供上萬億高質量的訓練token,關鍵問題是如何保持質量並避免過早陷入瓶頸。


馬斯克同意這個看法,並提到人類所寫的每一本書隻需一個硬盤就能裝下,合成數據將遠遠超出這個規模。


但圖靈獎三巨頭中的LeCun認為,更多合成數據隻是權宜之計,最終還是需要讓AI像人類或動物一樣隻需極少數據就能學習。


萊斯大學博士Cameron R. Wolfe表示,Q-Learning可能並不是解鎖AGI的秘訣。

但將“合成數據”與“數據高效的強化學習算法”相結合,可能正是推進當前人工智能研究范式的關鍵。

他表示,通過強化學習微調是訓練高性能大模型(如ChatGPT/GPT-4)的秘訣。但強化學習本質上數據低效,使用人工手動標註數據集進行強化學習微調非常昂貴。考慮到這一點,推進AI研究(至少在當前范式中)將嚴重依賴於兩個基本目標:

  • 讓強化學習在更少數據下表現更好。

  • 盡可能使用大模型和少量人工標註數據合成生成高質量數據。

……如果我們堅持使用Decoder-only Transformer的預測下一個token范式(即預訓練 -> SFT -> RLHF)……這兩種方法結合將使每個人都可以使用尖端的訓練技術,而不僅僅是擁有大量資金的研究團隊!


One More Thing

OpenAI內部目前還沒有人對Q*的消息發表回應。

但奧特曼剛剛透露與留在董事會的Quora創始人Adam D’Angelo進行幾個小時的友好談話。


看來無論Adam D’Angelo是否像大傢猜測的那樣是這次事件的幕後黑手,現在都達成和解。

參考鏈接:

[1]

https://www.theinformation.com/articles/openai-made-an-ai-breakthrough-before-altman-firing-stoking-excitement-and-concern

[2]https://www.reuters.com/technology/sam-altmans-ouster-openai-was-precipitated-by-letter-board-about-ai-breakthrough-2023-11-22/

[3]https://www.youtube.com/watch?v=ZFFvqRemDv8

[4]https://www.youtube.com/watch?v=Ft0gTO2K85A

[5]https://x.com/cwolferesearch/status/1727727148859797600

[6]https://twitter.com/DrJimFan/status/1727505774514180188


相關推薦

2023-11-24

隨著OpenAICEO奧特曼回歸,宮鬥大戲告一段落,但仍留下許多未接的謎題。其中最為關鍵的,就是當初奧特曼為何會被董事會解雇。昨日,有媒體透露,就在奧特曼被開除四天前,幾名研究人員向董事會發出一封信,警告一項強大

2024-03-05

馬斯克的一紙訴狀再次將OpenAI推上風口浪尖,或許還把GPT-5的發佈時間推遲。具體詳情可回顧先前的文章,這場官司的焦點主要歸納為以下幾個方面:OpenAI 的開源承諾和實際行動之間的矛盾:OpenAI 與微軟的合作是否背離其最初

2023-11-25

傳聞中OpenAI的Q*已經引得AI大佬輪番下場。AI2研究科學傢NathanLambert和英偉達高級科學傢JimFan都激動的寫下長文,猜測Q*和思維樹、過程獎勵模型、AlphaGo有關。人類離AGI,已是臨門一腳?OpenAI的神秘Q*項目,已經引爆整個AI社區!疑

2024-03-02

。馬斯克在46頁訴狀中曝出一封重量級的秘密信件,透露OpenAI的成立初衷。OpenAI發內部公開信堅決反駁。現在的矛盾焦點就是:GPT-4究竟是AGI嗎?好久沒見這麼精彩的大戲。就在昨天下午,馬斯克一紙長達46頁的訴狀,把OpenAI實體

2023-12-02

當地時間11月29日,SamAltman正式回到OpenAI重新擔任CEO一職。新的初步董事會由BretTaylor(主席)、LarrySummers和AdamD'Angelo組成,MiraMurati將回到原來的CTO職位。微軟在董事會中獲得一個無投票權的觀察員席位,這意味著微軟能

2023-11-30

加繆說:真正嚴肅的哲學問題隻有一個,那就是自殺。OpenAI剛剛平息的“政變”,其實就是對“自殺”的一次深入思考。ChatGPT上線滿一周年之際,回歸OpenAI的阿爾特曼,重新出任CEO。回到原職位的阿爾特曼,也在迎接公司內外

2023-11-23

馬斯克就有關於OpenAI在AGI領域新突破的報道置評稱極度令人擔憂。此前據媒體援引知情人士稱,在OpenAI首席執行官薩姆·奧特曼被解雇之前,幾名研究人員向該公司董事會發出一封信,警告稱一項強大的人工智能發現可能威脅到

2023-11-28

OpenAI員工曾在Altman被解雇的前一天發帖:AI正在自己編程!這一帖子被挖出後,更多內幕文件被曝出,表示Q*已經破解加密,AGI即將到來。Q*項目,又傳出炸裂消息——在人類看不見的角落裡,AI竟然自己在偷偷編程?傳言稱,Q-St

2023-11-23

據知情人士稱,在OpenAI首席執行官薩姆·奧特曼被解雇之前,幾名研究人員向該公司董事會發出一封信,警告稱一項強大的人工智能發現可能威脅到人類。兩位消息人士表示,這封此前未被報道的信件和AI算法是導致董事會罷免

2023-03-27

自己都承認復雜任務的計劃能力還是不行。他的擔憂的是OpenAI和微軟的這2篇論文,寫的模型完全沒有披露,訓練集和架構什麼都沒有,光靠一紙新聞稿,就想宣傳自己的科學性。所以說論文裡號稱的‘某種形式的AGI’是不存在

2024-03-02

馬斯克和OpenAI要對簿公堂?!北京時間周五下午,馬斯克又搞大事!一紙訴狀將OpenAI告上法院。馬斯克向舊金山高等法院提起訴訟,以違反合同為由,狀告OpenAICEO薩姆·阿爾特曼(SamAltman),OpenAI聯合創始人、總裁格雷格·佈羅

2023-11-23

盡管隨著山姆·奧特曼重返OpenAI擔任CEO,這場震動科技界的“政變”大戲已經宣告落幕。但自始至終,一個謎團一直縈繞在人們心頭:奧特曼究竟為何被解雇?而現在,隨著越來越多的消息被曝出,奧特曼被解雇的真相正在逐漸

2023-11-25

11月22日(周三)午後,在經歷近5天的反轉再反轉之後,OpenAICEO阿爾特曼被開除的“宮鬥”大戲迎來結局:阿爾特曼及其盟友佈羅克曼重返OpenAI。但在這場震動全球科技圈的大事件中,最關鍵的一環仍然沒有答案,即阿爾特曼究

2024-03-30

當地時間周五(3月29日),美國人工智能研究公司OpenAI在官網首次分享名為“VoiceEngine”(語音引擎)的預覽。據介紹,通過輸入文本和15秒音頻樣本,VoiceEngine便可以生成一個與音頻中說話者非常相似的自然語音。新聞稿強調,