聲明:本文來自於微信公眾號 機器之心(ID:almosthuman2014),作者:機權站長之傢轉載發佈。
昨天凌晨,Meta 突然官宣 Llama3,把開源模型的實力又往上提一截。
Llama3總共有三個版本 ——8B、70B 和405B。其中,8B 和70B 版本已經開源,405B 版本仍在訓練中。根據現有的評測數據,405B 版本的性能已經逼近 GPT-4(參見《開源大模型 Llama3王者歸來!最大底牌4000億參數,性能直逼 GPT-4》)。這可能促使 OpenAI 盡早發佈下一代模型,從而保持其最強 AI 模型的地位。
那麼,這個還沒有亮相的 Llama3405B 大模型將帶來哪些驚喜?Meta 會繼續堅持開源嗎?Llama4以及之後的模型會往哪些方向迭代?之前 Meta 對元宇宙的篤信是出於哪些動力?在最近的一次訪談中,Meta CEO 紮克伯格回應這些問題。
視頻地址:https://www.youtube.com/watch?v=bc6uFV9CJGg&t=17s
他提到,Llama3405B 將是一個密集模型,預計年末發佈。此外,他們還計劃到年底擁有約35萬塊 GPU,目前已經建立由22000塊 GPU 和24000塊 GPU 構建起來的兩個單獨集群。在談到開源問題時,他類比說,在現有的應用生態系統中,蘋果和谷歌等「守門人」對開發者能夠構建的應用類型擁有很大的控制權,他不想讓 AI 世界也變成這個樣子,因此他對開源持積極態度。他表達對於一個開放的 AI 生態系統的願景,在這個系統中,開發者不會被少數控制著閉源模型的大公司所限制。
以下是機器之心整理的訪談內容,部分內容存在刪減。
Llama-3超大杯什麼時候發佈?
Dwarkesh Patel:我們來談談剛發佈的 Llama-3和 Meta AI 吧。
Mark Zuckerberg:我想大多數人最關心的還是 Meta AI 的新模型,即 Llama 模型的升級版本:Llama-3。我們既會向開發社區開源,也會讓其成為 Meta AI 的助力。Meta AI 值得關註的點有很多,但我認為最重要的是它是目前人們可以使用的最智能且可自由使用的 AI。我們將把谷歌和 Bing 整合起來用以獲取實時知識。
Meta AI 將會整合進我們的許多應用,包括 Facebook 和 Messenger—— 你可以在它們的搜索框中任意提問。我們在其中加入很多創意功能,比如動畫化功能可以將任意圖片變成動畫。
比較震撼眼球的一項更新是它現在能以非常快的速度生成高質量圖像,而且它能隨著用戶輸入而實時更新生成結果。
我們未來幾周或幾個月會在一些國傢發佈這些應用,但還不會全面鋪開。我認為這會是一個非常重要的事件,是 Meta AI 向前邁出的一大步。
深入到 Meta AI 內部,在技術方面最吸引眼球的當然是 Llama-3。我們訓練三個版本:8B 和70B 參數的模型,還有一個405B 參數的密集模型(還在訓練之中)。8B 和70B 模型的表現非常激動人心,它們都是同等規模模型的領軍者。
我們還有後續發佈的路線圖,包括多模態、更強大的多語言支持、更大的上下文窗口。我們希望能在今年年末的某個時候發佈405B 版本。在目前的訓練階段,它的 MMLU 得分已經達到85左右。我們預計完成訓練後它能在許多基準上領先。剛剛發佈的70B 模型也很出色,MMLU 為82,數學和推理能力的得分都領先。
Dwarkesh Patel:著實不凡。
Mark Zuckerberg:8B 版本基本上與我們之前發佈的 Llama-2的最大版本一樣強大,也就是說 Llama-3的最小版本足以比肩 Llama-2的最大版本。
買那麼多 GPU 是未卜先知?
Dwarkesh Patel:在深入這些模型之前,我想聊聊過去。大概2022年時,你們開始購進 H100。那時候你們的股價不振,人們都很疑惑為什麼要這樣花錢。人們並不看好元宇宙。那時候你怎麼知道要去買 H100呢?
Mark Zuckerberg:那是因為我們當時正在研究 Reels(一款短視頻應用,Tiktok 競品)。我們總是希望有足夠的能力去構建尚不存在的東西。我們當時在研究 Reels,我們需要更多 GPU 去訓練模型。加上我們當時希望在基礎設施方面盡快追趕上 TikTok。我們當時想:「唉,我們必須確保我們再也不這樣落後。那就訂購足夠訓練 Reels 的 GPU 並且再加一倍吧。」
Dwarkesh Patel:當時你知道這會用於訓練 AI 嗎?
Mark Zuckerberg:我們當時知道這會與訓練大型模型有關。當時我覺得這可能與內容有關 —— 那時候我非常急切地想要為 Reels 和其它內容開發出推薦算法。現在這成為 Instagram 和 Facebook 的一大賣點:向人們展示他們可能感興趣的內容,即便他們沒有關註。
事後來看,這是一個非常明智的決定。這都是後見之明 ——「哦,我當時多麼領先。」事實上,我們當時做的大多數決定最後都有不錯的結果,原因不過是我們之前搞砸過,不想再犯同樣的錯。
何時決定 All in AGI?
Dwarkesh Patel:Facebook AI 研究院已經成立很長時間。現在它似乎已經變成你們公司的核心。你們是從什麼時候開始考慮將造就 AGI 作為自己的使命和關鍵優先事項?
Mark Zuckerberg:確實挺久。FAIR 成立於大概十年之前。我們的想法是,在創造通用智能的道路上,我們會得到很多能改善方方面面的不同創新。因此我們並不是將其看作一個產品,它更像是一個研究團隊。過去十年來,它創造很多提升我們所有產品的東西。它也推動 AI 領域的發展。
過去幾年隨著 ChatGPT 和擴散模型的出現,這一領域發生重大轉變,出現很多會改變人們與應用的交互方式的東西。那時候我們成立另一個團隊:Gen AI 團隊。其目標是將這些創新引入我們的產品並且構建支持所有這些不同產品的先進基礎模型。
一開始我們想做的東西都與社交有關,比如幫助人們與創作者溝通、幫助人們與企業互動、幫助企業銷售產品或提供客戶服務。還有一些基礎的助理功能,可以用於我們的應用以及智能眼鏡和 VR 設備。所以一開始的時候,我們並不完全清楚我們需要完整的 AGI 來支持所有這些用例。但經過多年的研究和實踐之後,這方面變得清晰起來。舉個例子,在我們開發 Llama-2時,我們並沒有將編程看作一個優先事項,因為人們並不會用 WhatsApp 向 Meta AI 提很多編程問題。
Dwarkesh Patel:現在他們會問這些嗎?
Mark Zuckerberg:我不知道。我不確定人們是否會使用 WhatsApp 或 Facebook 或 Instagram 作為 UI 來問與編程有關的問題,也許他們會使用我們剛上線的網站 meta.ai。但過去18個月的發展已經表明,編程對很多領域都很重要,而不僅僅是編程領域。即便人們問的問題與編程無關,但訓練模型學習編程依然有用 —— 這能幫助模型給出更嚴謹的回答,讓模型可以在不同類型的領域執行推理。Llama-3就是這樣,編程能力是我們關註的一大重點,因為這能幫助模型的能力獲得全面的提升。
另一個重點是推理。用戶在與商傢或企業等溝通時,不是一問一答就完成,而是往往涉及到多步互動。很多時候客戶隻知道自己的需求,並不知道自己想要什麼產品或服務。這時候光回答字面上的問題是不夠的,還需要推理。
Llama-3能取代程序員嗎?
Dwarkesh Patel:所以 Llama-3能解決所有這些用例嗎?你認為這個版本足以替代程序員嗎?
Mark Zuckerberg:我隻是覺得這些能力都會隨時間而進步。
Dwarkesh Patel:但最終能解決,比如 Llama-10?
Mark Zuckerberg:我認為這個問題不簡單。我不確定這些模型是會替代人們更多,還是幫助人們更多。
Dwarkesh Patel:Llama-10誕生後,程序員的生產力能提升10倍嗎?
Mark Zuckerberg:我希望會更多。我相信人們的智能並不存在一個單一閾值,因為人們有不同的技能。我認為未來某個時候,AI 將在大多數事情上超過人類。但我認為這個過程是漸進式的,而且我認為 AGI 並不是一個單一存在,而實際上是不同功能的集合。目前我們關註的一大關鍵功能是多模態,起先是照片、圖像和文本,最後到視頻。而且我們還很關註元宇宙,因此3D 模態也很重要。另一個我非常關註的模態是情緒理解(emotional understanding)—— 我還沒看到業界有很多人關註這方面。人腦中有很大部分是專門用於理解別人的表情和情緒。我認為這是一個單獨完整的模態。你也許會說這就是視頻或圖像,但很顯然這是非常特別的視頻或圖像。
因此,模型不隻是需要具備理解和記憶的能力,還有很多其它不同能力需要掌握。我認為未來我們解決復雜問題時並不會再以查詢窗口為中心,通過輸入上下文來處理。人們會有更加個人化的記憶數據和不同的定制化模型。它們會有各自不同的能力,規模也有大有小。大小模型我們都很關註。Meta AI 這樣的模型運行在大型服務器上,但我們也希望會有能運行在智能眼鏡等小型設備上的模型。因此我們也需要非常高效的模型。
大模型將催生哪些產業級用例?
Dwarkesh Patel:你認為模型推理有什麼百億美元級乃至千億美元級的市場?它有什麼產業級的用例?模擬或者元宇宙?
Mark Zuckerberg:我們猜想這將能改變所有產品。我認為將會出現一種 Meta AI 通用助理產品。這種產品不再是隻會問答的聊天機器人,而是可以完成更復雜任務的系統性模型。這就需要大量的推理和計算。
另一個重要方向是與其它智能體或人類交互,包括企業業務和創意工作。我的想法是,未來並不隻有單一 AI。每傢企業都會想要一個代表其利益的 AI。
創意工作也是一個重點。我們平臺有大約2億位創作者。他們與各自的社區互動時通常都有模式可循,但他們每天的時間有限。如果我們能創造出可讓創作者擁有的 AI,讓他們以自己的方式去訓練它與自己的社區交互,那必然會是一個非常棒的應用場景。這樣的 AI 會贏得大量的互動參與。
這還隻是消費者用例,我和妻子的基金會 Chan Zuckerberg Initiative 在科學方面做很多工作,其中也包括很多與 AI 相關的工作,這些將能推動科學和醫療等領域的發展。我相信這些最終將能影響產品和經濟的每個方面。
Llama-3將帶來哪些改進?
Dwarkesh Patel:你提到模型的進步是漸進式的,這是指模型變得更大嗎?還是說使用更好的數據訓練同樣大小的模型讓其變得更強大?
Mark Zuckerberg:我認為我們不知道這個問題的答案。我想一種發展模式是基於 Llama 這樣的模型開發其它應用,也就是針對用例進行微調,比如讓 Meta AI 可以使用谷歌或 Bing 等工具來獲取實時知識。基礎 Llama 模型並不具備這種能力。Llama-2具備一些,但這是人工設計開發的。Llama-3開始具備一些類似智能體的能力。對於 Llama-4,我們的部分目標是讓模型本身具備更多能力。
每一次進步都會出現新的可能性,解鎖出新的用例。
Dwarkesh Patel:你說「讓模型本身具備更多能力」,你是指在你希望模型完成的事情上訓練模型嗎?
Mark Zuckerberg:Llama-2隻能使用非常特定的工具,而 Llama-3能使用好得多的工具。我們無需人工編程就能讓其使用谷歌執行搜索。它本身就能做到。類似的功能還有編程和運行代碼等。模型既然能具備這樣的能力,我們就能借此一窺未來。我們不必等到開發 Llama-4時才去構建這些能力,我們現在就能探究它們。我們可以人工編寫一些讓產品更好用的工具,用以臨時過渡。這有助於展現下一版本模型的開發方向。
Dwarkesh Patel:開源社區對 Llama-3的微調,你最感興趣的是什麼?也許不是對你最有用的那個。
Mark Zuckerberg:我認為有價值的事情,我們可能都會著手構建。我認為你會得到精簡版本、更小的版本。我認為8B 參數對於很多用例來說還不夠小。隨著時間的推移,我很想得到一個1-2B 參數的模型,甚至是一個500M 參數的模型,然後看看你能做些什麼。
如果使用8B 參數,我們幾乎能與最大的 Llama-2模型媲美,那麼使用10億個參數,你應該能夠做一些有趣且更快的事情。我們也在考慮優化模型,但現在 GPU 已經被用來訓練405B 模型。
LLama-370B 模型還有待發掘的潛力
Dwarkesh Patel:關於 GPU,我記得你說到年底會有35萬塊。
Mark Zuckerberg:我們建造兩個集群, 每個集群大約有22,000或24,000個 GPU。由於我們服務的社區規模之大,我們所需的推理計算量與訓練計算量的比例可能比其他公司高得多。
Dwarkesh Patel:在你們之前分享給我的材料中,我註意到你們用更多的數據來訓練,你能具體談一下嗎?
Mark Zuckerberg:關於70B 模型,我們發現一件有趣的事情,我們訓練 token 達到15萬億,但在訓練的最後階段模型仍然在學習。假如我們給它更多的 token,模型可能會變得更好。
但是經營一傢公司,你需要有所取舍,我問自己是否想要調用 GPU 來進一步訓練70B 模型?還是準備測試 Llama-4的一些前期假設?我們需要做出決定,我認為70B 版本的模型已經取得不錯的平衡。未來會有其他版本,例如70B 多模態版本,會在未來推出。但最令人著迷的是,目前這些架構可以容納如此多的數據。
Dwarkesh Patel:這真的很有趣。這對未來的模型意味著什麼?你提到 Llama-3的8B 比 Llama-2的70B 更好。
Mark Zuckerberg:不,不,它幾乎一樣好。我不想過分誇大。它的數量級差不多。
除能源瓶頸,還有架構瓶頸
Dwarkesh Patel:這是否意味著 Llama-470B 會和 Llama-3405B 一樣好?未來會是什麼樣子?
Mark Zuckerberg:這確實是一個很好的問題,我想沒人會給出答案。世界上最棘手的事情之一就是指數曲線還能持續多久?我認為我們很可能會繼續下去。我認為投資100億美元,甚至1000億美元來建設基礎設施是值得的,這樣的話,你將會得到一些真正令人驚奇的東西,從而創造出令人驚奇的產品。一般來說,從歷史來看,當你遇到瓶頸時會耗費大量的時間解決。但是現在,也許這些瓶頸很快就會被克服。
Dwarkesh Patel:如果沒有這些瓶頸,世界會是什麼樣子?假設進展以這種速度繼續下去。
Mark Zuckerberg:無論如何,都會遇到不同的瓶頸。在過去幾年中,我認為 GPU 的生產是一個問題。即使有錢支付 GPU 的公司也不一定能夠獲得他們想要的數量,因為存在供應限制。現在我覺得這種情況正在減少。因此,你會看到很多公司現在考慮投資大量資金來構建這些設施。我認為這種情況會持續一段時間。還有一個資本問題,在什麼時候,投入更多的資本就不再具有性價比。實際上我認為在我們達到這個點之前,你會遇到能源的限制。據我所知,還沒有人建立過一千兆瓦的單一訓練集群。此外,獲取能源許可會受到政府的嚴格監管。顯然,如果你是在創辦一傢小公司,也許你會感覺到這種監管較少。我們與不同的政府和監管機構打交道,我們有很多規則需要遵循,以此確保我們在全球做好工作。但我認為能源無疑是一個巨大的限制。
Dwarkesh Patel:有沒有什麼東西,也許是人工智能相關的項目,也許不是,即使是像 Meta 這樣的公司也沒有資源?如果完成這項任務是研發預算或資本支出預算的10倍,你還會實施嗎?
Mark Zuckerberg:我認為能源問題是其中之一,如果我們有足夠的能源,我們可能會建立比現在更大的集群。
Dwarkesh Patel:這基本上是資金瓶頸的極限?如果你有1萬億美元……
Mark Zuckerberg:我認為現在是時候考慮這個問題。這取決於指數曲線會走多遠。目前,許多數據中心的規模大約是50兆瓦或100兆瓦,大型數據中心可能達到150兆瓦。如果把一個整個數據中心都用來進行訓練,並建立最大的集群,我認為很多公司正在這樣做。但是當你開始建造像300兆瓦、500兆瓦或1吉瓦這樣規模的數據中心時,還沒有人建造過1吉瓦的數據中心。我認為這遲早會發生,但不會在明年。有些事情需要花費數年時間才能建成。換個角度來看,我認為1吉瓦的規模相當於一個核電廠的能源供應僅用於訓練模型。
Dwarkesh Patel:亞馬遜有沒有做過這個?他們有一個950兆瓦的……
Mark Zuckerberg:我不太確定他們做什麼。你得問他們。
Dwarkesh Patel:但是這種規模的數據中心不一定要建在同一個地方,對吧?如果分佈式訓練有效,也可以分佈式進行。
Mark Zuckerberg:嗯,我覺得這是一個很大的問題,數據中心將如何運作。
Dwarkesh Patel:Llama-3,甚至可能是 Llama-4之後的版本,能否遇到這種情況,也就是說,你發佈這個模型,如果有人有大量計算資源,他們就可以在你發佈的模型的基礎上,讓這些模型變得更加智能。
Mark Zuckerberg:我認為這種可能性是存在的,但我也認為模型架構存在根本性的限制。用 Llama-3架構訓練的70B 模型可以變得更好,它可以持續改進。正如我之前說的,如果我們繼續給它提供更多的數據,或者再次通過 token 進行優化,它會變得更好,世界各地的許多不同公司基本上都采用 Llama-270B 模型架構,然後構建一個新模型。但仍然存在這樣一個情況,當你對像 Llama-370B 或 Llama-3405B 這樣的模型進行改進時,人們在此基礎上可以構建的東西不能無限地進步。在達到下一個重要進展之前,可能隻能在現有的基礎上進行優化和改進。
AI 是有史以來最重要的技術嗎?
Dwarkesh Patel:未來幾十年人工智能會發生什麼?它是否會讓你感覺像是另一種技術,如虛擬宇宙或社交技術,或者是人類歷史進程中根本不同的事物?
Mark Zuckerberg:我認為將人工智能形容為非常基礎性的技術是非常合適的。它更像計算機的發明,將催生全新的應用。但我認為這是一個低層次的創新,我的感覺是,這更像是人們從沒有計算機到擁有計算機的過程。
然而,我們很難預測 AI 如何發展。從宇宙尺度來講,AI 變革會很快發生,需要幾十年的時間。有些人會很擔心 AI 真的會在一夜之間從有點聰明變成極其聰明,但我認為所有這些物理限制使得這種情況不太可能發生。不過我們必須承認,AI 確實會改變我們的工作方式,讓人們做他們更想做的事情。
Dwarkesh Patel:也許不是一夜之間,但你認為在宇宙尺度上我們可以用這種方式來思考這些裡程碑嗎:人類進化,然後人工智能出現,然後他們進入銀河系,按照這個推理,這個過程也許需要幾十年,也許需要一個世紀,AI 會是歷史發展的重要一環嗎?我指的是比如計算機甚至火在人類發展史上至關重要,但人工智能可以和這些發明相提並論嗎?
Mark Zuckerberg:我認為這很難回答。人類歷史上,人類的某些方面確實是獨一無二的,然後認識到事實並非如此,但人類實際上仍然非常特殊。我們認為地球是宇宙的中心,但事實並非如此,但人類仍然非常偉大和獨特,對吧?
我認為人們往往存在的另一個偏見是認為智能在某種程度上與生活有著根本的聯系,但並非如此。我們還沒有對意識或生命有清晰的定義來全面理解這個問題。很多科幻小說都是關於創造智能的,這些智能體開始承擔所有這些類人行為和類似的事情。但目前的趨勢似乎正朝著一個方向發展,即智能可以與意識、能動性和類似的東西完全分開,這使得它成為一個超級有價值的工具。
雖然很難準確預測技術的發展方向,但開發者並不應該對開發計劃或未來做出過於教條的承諾。在我們發佈新版本時,都需要對模型進行重新評估。我們雖然傾向於支持開源,但並不一定會開源所有內容。開源有利於社區和自身,因為大傢可以從創新中受益。然而,如果技術的性質發生質變,演變為不負責任的行為,那我們可能會考慮不開源。整體來說,技術發展充滿不確定性。
開源 vs.閉源,哪個更危險?
Dwarkesh Patel:未來你們在訓練 Llama-5或 Llama-4時,有沒有可能出現質變情況?如果出現,你們要不要把它開源?
Mark Zuckerberg:回答這個問題有點困難,因為任何產品都可能出現負面行為,隻要加以緩解就可以。我們也在為減少模型負面影響而努力,此前也在 Llama-2上花費大量時間確保它不會幫助人們實施暴力等不良行為。但這並不意味著它已經成為智能主體,這隻是意味著它擁有大量有關世界的知識,可以回答我們認為不應該回答的一系列問題。因此,我認為問題在於如何識別並緩解其潛在不良行為,而非行為本身。
我認為事物的好壞有很多方面,很難事先詳盡列舉出來。看看我們在社交媒體上所面對的問題,目前我們已經總結出18或19種人類有害行為,然後構建 AI 系統來識別這些行為,並盡可能確保在我們的網絡上不會發生這些情況。隨著時間的推移,我認為我們會更加細化問題分類。
Dwarkesh Patel:我認為廣泛部署 AI 系統是非常重要的。如果將來 AI 系統沒有被廣泛部署,導致人們無法訪問,我會感到失望。與此同時,我想更好地理解如何減輕模型潛在問題。
Mark Zuckerberg:這是一個復雜的問題。我認為大部分人會使用現成的模型,因而不會出現不良行為,而懷有惡意行為的人則會試圖利用模型不良行為。所以這是個值得深思的問題。另一方面,從哲學上講,我支持開源的一個原因是,我認為未來 AI 的過度集中化會像它被不恰當的廣泛應用一樣危險。一個機構擁有比其他所有機構更強大的 AI 也可能是非常糟糕的。就像我們看到的,不同事物中都存在著安全漏洞。
我們是如何處理這個問題的呢?其中一個重要部分是開源軟件,軟件的升級迭代不再局限於一傢公司,而且可以廣泛部署到許多不同的系統中,無論是銀行還是醫院。隨著軟件變得更加完善,全世界范圍的開源軟件會按照新的基準得到升級。
隨著時間的推移,在被人工智能廣泛部署的世界,會逐漸變得更加堅固,所有不同系統都將在某種程度上得到控制。對我來說,這比 AI 更集中化更安全。然而,最讓我擔心的是,一個不可信賴的主體擁有超級強大的人工智能系統,這可能是一個更大的風險。
Dwarkesh Patel:是否會出現這種情況,當你正在訓練 Llama-4時,它可能出於一些原因對你撒謊,因為它認為你沒有註意到這個問題,之後你才後知後覺道發生什麼?盡管這種情況在 Llama-4這種級別的系統中不太可能發生,但你有沒有想過,假如這種欺騙行為正在以成千上萬的副本在不安全的傳播。
Mark Zuckerberg:現在,我們已經觀察到許多幻覺現象,人們如何區分幻覺和欺騙會是一件有趣的事情。談到欺騙,我最擔心的形式是人們利用它來生成錯誤信息,然後通過網絡或其他人傳播該信息。我們打擊此類有害內容的方法是構建比對手系統更智能的人工智能系統。
如果你仔細觀察人們通過社交網絡造成傷害的類型,就會發現有些傷害並非具有對抗性的。舉例來說,仇恨言論沒有超級對抗性,因為人們並沒有因為網絡言論而變得更加種族歧視。我認為在這些問題上,人工智能通常比人類更成熟。其實我們雙方都有問題,人會做壞事,無論他們是試圖煽動暴力還是其他什麼。但 AI 也會出現很多誤報情況,比如審查不該審查的東西,這會讓很多人感到惱火,這是可以理解的。所以我認為隨著時間的推移,人工智能在這方面會變得越來越準確,情況將會得到改善。
未來,無論是 Llama-4還是 Llama-6,我們都需要認真觀察模型行為,是每一個人都參與進來。我們開源的原因之一是有很多其他人也在研究這個領域。因此,我們想要看看其他人觀察到什麼,我們自己觀察到什麼,我們能夠減輕什麼,然後我們會評估是否可以將其開源。在可預見的將來,我對此持樂觀態度。但在短期內,我不想忽視我們今天正在努力解決的實際問題。即使它們不是生存性的問題,卻是我們必須花費時間解決的大部分問題。
Dwarkesh Patel:關於合成數據,我發現一個非常有意思的事情。目前的模型使用合成數據可能會出現漸近情況,因為重復使用合成數據會達到一個極限。但是,如果模型變得更智能,並且使用你們在論文或即將發佈的博客文章中提到的技術,即能夠找到最正確答案的思維鏈條。為什麼你認為這不會導致一個循環,模型變得更聰明,產生更好的輸出。當然,這不會是一夜之間的事,但隨著訓練時間的延長,可能會出現一個更智能的模型。
Mark Zuckerberg:我認為無論模型架構是什麼,它都可以在參數范圍內實現。隻是,對於今天的8B 參數模型,我認為不會像最先進的數千億參數模型一樣好。
Dwarkesh Patel:但這些都是開源的,對吧?
Mark Zuckerberg:嗯,目前看來是的。但前提是我們必須解決上述討論的那些問題。我認為,你可以用軟件做很多事情,但在某種程度上你會受到芯片限制,繼而受到物理方面的限制,此外還受到能源的限制。
Dwarkesh Patel:我認為保留選擇餘地是有意義的,因為有太多我們不知道的事情。很多事情看起來都是有可能的,考慮到所有這些因素,所以你保留選擇餘地似乎是合理的。
Mark Zuckerberg:是的。
為何篤信元宇宙?
Dwarkesh Patel:讓我們來談談元宇宙。你最想進入人類歷史的哪個時期?
Mark Zuckerberg:我對美國歷史和古典歷史非常感興趣。我對科學史也很感興趣。實際上,我認為看到並嘗試更多地解一些重大進步是如何產生的將非常有趣。我們所掌握的關於其中一些內容的著作非常有限。我不確定元宇宙是否能讓你做到這一點,因為對於我們沒有記錄的東西,我們很難回溯。實際上,我不確定回到過去是不是一件重要的事情。我認為這對歷史課之類的東西來說很酷,但這可能不是我對元宇宙最感興趣的用例。
我認為最重要的是,無論你身在何處,(元宇宙)都能讓你感受到與人在一起。我認為這將是一個殺手鐧。在我們進行的人工智能對話中,有很多內容都是關於物理約束的,而物理約束是這一切的基礎。我認為技術的一個教訓是,你要盡可能地將物理約束領域的東西轉移到軟件中,因為軟件更容易構建和迭代。你可以讓它更加大眾化,因為不是每個人都有數據中心,但很多人都可以編寫代碼,並使用、修改開放的源代碼。元宇宙版本的軟件是實現現實的數字存在。這將是一個絕對巨大的差異,這樣人們就不會覺得有那麼多的事情必須要大傢聚集到一個物理空間去做。我認為,現在還有些事情是大傢聚到一起做比較好。這些事情並不是二元對立的。它不會像「好吧,現在你不需要再那樣做」。但總的來說,我認為它在社交、與人溝通、工作、部分行業、醫療以及很多方面都會非常強大。
Dwarkesh Patel:對於元宇宙,你知道你要去做這件事,即使市場對你大加指責。我很好奇,這種篤定的來源是什麼?你說「哦,價值觀,我有這種直覺」,但每個人都這麼說。如果讓你說一些你特有的東西,你會怎麼表達?你為什麼如此相信元宇宙?
Mark Zuckerberg:我認為這是幾個不同的問題。我的動力是什麼?我們已經討論過很多主題。我隻是非常喜歡建造東西。我特別喜歡圍繞人們如何交流、表達自己以及如何工作來構建事物。上大學時,我學的是計算機科學和心理學。對我來說,這一直是這兩件事的交叉點。
這也是一種非常深刻的內在驅動力。我不知道該如何解釋,但我就是覺得,如果我不構建一些新的東西,我就做錯什麼。即使在我們為人工智能投資1000億美元或為元宇宙投資巨額資金準備商業案例時,我們也制定計劃,我認為這些計劃非常清楚地表明,如果我們的東西奏效,這將是一筆很好的投資。但你不能從一開始就確定。人們會與顧問或不同的人爭論不休。比如「你怎麼有足夠的信心做這個?」當我不再嘗試創造新事物的時候,我就完。我要去別的地方創造新事物。從根本上說,我無法在經營某件事或者我的生活時,不去嘗試創造我認為有趣的新事物。對我來說,這甚至都不是一個問題,我就是沒有辦法不做。
我在生活的各個方面都是這樣。我們傢在考愛島建一個牧場,我負責設計所有建築。我們開始養牛,我就想「好吧,我想養出世界上最好的牛。」「那我們該怎麼設計呢?」這就是我。
把花100億美元研發的模型開源,怎麼賺錢?
Dwarkesh Patel :讓我們回到投資者和開源話題上。100億美元的模型,假設它是完全安全的。你們已經做這些評估,與此不同的是,評估者還可以對模型進行微調,希望未來的模型也能如此。你們會開源100億美元的模型嗎?
Mark Zuckerberg:隻要它對我們有幫助,就會開源。
Dwarkesh Patel :花100億美元的研發費用,真的會開源?
Mark Zuckerberg:隨著時間的推移,我們也將對這個問題進行評估。我們在開源軟件方面有著悠久的歷史。我們並不傾向於開源我們的產品。我們不會將 Instagram 的代碼開源。我們會將許多底層基礎設施開源。在我們的歷史上,最大的一個項目可能就是我們的開放計算項目(Open Compute Project),我們將所有服務器、網絡交換機和數據中心的設計都開源,結果對我們幫助很大。雖然很多人都能設計服務器,但現在整個行業都以我們的設計為標準,這意味著供應鏈基本上都是圍繞我們的設計建立起來的。因此,在起量之後,價格對每個人來說都變得更便宜,而且為我們節省數十億美元,這真是太棒。
因此,開源可以在很多方面為我們提供幫助。一個是人們是否能找到更便宜運行模型的方法。隨著時間的推移,我們將在所有這些東西上花費幾千億美元或更多。所以如果我們能提高10% 的效率,我們就能節省數十億甚至數百億美元。它本身可能就值很多錢。特別是如果有其他競爭模式存在,我們的東西並沒有放棄某種瘋狂的優勢。
Dwarkesh Patel:那麼,你認為訓練會商品化嗎?
Mark Zuckerberg:我認為有很多方法可以解決這個問題,這是其中之一。因此,「商品」意味著它將變得非常便宜,因為有很多選擇。另一個可能的方向是質量改進。你提到微調。目前,微調技術在其他主要模型上的應用非常有限。有一些選擇,但一般不適合最大的那些模型。我們可以做的是,針對不同的應用程序或特定的使用案例去微調,或將它們構建到特定的工具鏈中。我認為這不僅能提高開發效率,還能帶來質的區別。
這裡有一個類似的例子。我認為移動生態系統最糟糕的一點是,蘋果和谷歌這兩傢守門人(gatekeeper)會告訴你你可以開發什麼。從經濟角度來看,我們構建一些東西,他們就拿走你的一大筆錢。但還有一個定性的事情,實際上更讓我不爽。有很多次,當我們推出或想要推出新功能時,蘋果就會說「不行,你不能推出這個功能」。這很糟糕,對吧?那麼問題來,我們是否也想要一個這樣的 AI 世界?這個世界裡隻有幾傢運行這些封閉模型的公司,它們將控制 API,然後告訴你,你可以構建什麼。
至於我們,我可以說,為確保不陷入這種境地,我們自己去構建一個模型是值得的。我不希望任何其他公司來告訴我們,我們可以構建什麼。從開源的角度來看,我認為很多開發者也不希望那些公司這麼做。那麼問題來,圍繞這個問題建立起來的生態系統是什麼樣的?有哪些有趣的新事物?這能在多大程度上改善我們的產品?我認為,在很多情況下,如果最終像我們的數據庫、緩存系統或架構一樣,我們將從社區獲得有價值的貢獻,從而使我們的產品變得更好。屆時,我們所做的特定於應用的工作仍將非常與眾不同,以至於並不重要。我們將能做我們該做的事。我們將從中受益。而所有的系統,無論是我們的還是社區的,都將因為開源而變得更好。
有一個世界也許並非如此。也許模型最終更像是產品本身。我認為這是一個更棘手的經濟計算,無論你是否開放源代碼。你把自己商品化很多。但就我目前所見,我們似乎還沒到那個地步。
Dwarkesh Patel:您是否希望通過將您的模型授權給雲提供商來賺取可觀的收入?這樣一來,他們必須向您支付費用才能部署這個模型。
Mark Zuckerberg:我們希望有這樣的安排,但我不知道會有多大意義。這基本上就是我們的 Llama 許可證的范圍。在很多方面,它都是一個非常開放的開源許可證,隻是我們對使用它的大公司有一個限制。這就是我們設置限制的原因。我們並不是要阻止他們使用。我們隻是希望,如果他們打算把我們構建的東西轉賣並從中賺錢,那麼他們應該來和我們談談。如果你是微軟 Azure 或亞馬遜,如果你打算轉售我們的模型,那麼我們應該有一些收入分成。所以,在此之前,請先和我們談談。
因此,對於 Llama-2,我們基本上與所有這些主要的雲計算公司都達成協議,Llama-2可以作為托管服務在所有這些雲上使用。我認為,隨著我們發佈的模型越來越大,這將成為一件大事。這不是我們的重點所在,但我認為,如果這些公司要銷售我們的模型,我們就應該以某種方式分享其中的好處。
Dwarkesh Patel:就開源而言,我很好奇你是否認為 PyTorch、React、Open Compute 等開源對世界的影響甚至超過 Meta 的社交媒體方面。我和使用這些服務的人聊過,他們認為這是合理的,因為互聯網的很大一部分都是基於這些東西運行的。
Mark Zuckerberg:這是一個有趣的問題。全世界幾乎有一半的人都在使用我們的消費產品,所以這一點很難被超越。但我認為,開源作為一種新的構建方式,確實非常強大。我的意思是,超越是可能的。就像貝爾實驗室一樣,他們為實現長途電話而研究晶體管。他們做到,並且最終因為能夠實現長途電話而獲得豐厚的利潤。5到10年後,如果你問他們發明的最有用的東西是什麼 他們會說「我們實現長途電話,現在所有的人都在打長途電話」。但如果你問一個一百年後的人,也許答案就不一樣。
我認為我們正在構建的很多東西都是如此,包括現實實驗室(Reality Labs)、一些人工智能的東西、一些開源的東西。具體的產品會不斷演變,但人類的進步會持續下去,這是我們能做的一件很酷的事情。
Dwarkesh Patel:Llama 模型何時會在你們自己的定制芯片上進行訓練?
Mark Zuckerberg:很快,但 Llama-4不會。我們采取的方法是,首先構建定制芯片,處理排名和推薦類型的推理,如 Reels、News Feed 廣告等。這需要消耗大量 GPU。當我們能夠將其轉移到我們自己的芯片上時,我們就可以隻在訓練時使用更昂貴的英偉達 GPU。我們希望在未來的某一天,我們能用自己的芯片先訓練一些簡單的東西,然後再去訓練真正的大模型。這個項目進展得相當順利,我們隻是在有條不紊地推進,我們有一個長期的路線圖。
如果你被任命為 Google + 的 CEO,你能成功嗎?
Dwarkesh Patel:如果你被任命為 Google + 的 CEO,你能成功嗎?
Mark Zuckerberg:我不知道。這是一個非常困難的反事實問題。
Dwarkesh Patel:當 Gemini 推出時,辦公室裡是否有人說:「Carthago delenda est(迦太基必須毀滅)」(註:比喻性地表達對競爭對手的強烈敵意或決心要戰勝對手)?
Mark Zuckerberg:沒有,我覺得我們現在更平和。問題是,Google+ 並沒有 CEO。它隻是公司內部的一個部門。你之前問過什麼是最稀缺的商品,但你問的是以美元計價的。實際上,我認為對於大多數公司來說,至少對於這種規模的公司來說,最稀缺的是專註力。當你是一傢初創公司時,也許你的資金會更緊張。你隻有一個想法,可能沒有所有的資源。你在某一點上越過你所做的事情的界限。你正在構建多個東西。你在它們之間創造更多的價值,但你卻受到更多的限制。
總會有這樣的情況,即組織裡發生一些令人驚奇的事情,而我卻渾然不知。那些事情都很棒。但我認為,總的來說,組織的能力主要受限於 CEO 和管理團隊的監督和管理能力。這一直是我們關註的重點。正如 Ben Horowitz(矽谷著名風投公司 Andreessen Horowitz 聯合創始人之一)所說,「keep the main thing, the main thing」,並努力專註於你的關鍵優先事項。
參考鏈接:https://www.dwarkeshpatel.com/p/mark-zuckerberg