Google全新大模型突然發佈:百萬上下文 僅靠提示學會新語言


Google下一代大模型,無預警降臨。Gemini1.5,除性能顯著增強,還在長上下文理解方面取得突破,甚至能僅靠提示詞學會一門訓練數據中沒有的新語言。此時距離去年12月Gemini1.0發佈,還不到3個月。


現在僅僅中杯1.5 Pro版就能越級打平上一代大杯1.0 Ultra版,更是在27項測試中超越平級的1.0 Pro。


支持100萬token上下文窗口,迄今為止大模型中最長,直接甩開對手一個量級。

這還隻是對外發佈的版本,Google更是透露內部研究版本已經能直沖1000萬。


現在Gemini能處理的內容,可換算成超過70萬單詞,或1小時視頻、11小時音頻、超過3萬行代碼。

沒錯,這些數據模態Gemini 1.5都已經內建支持。

從今天起,開發者和客戶就可以在Vertex API或AI Studio申請試用。

剛剛收到消息還在震驚中的網友們 be like:


還有人直接@OpenAI的奧特曼,這你們不跟進一波?


上下文理解能力拉滿

目前Google已放出三個不同任務的演示視頻,隻能說Gemini 1.5是個抽象派(doge)。

在第一段演示視頻中,展示的是Gemini 1.5處理長視頻的能力。

使用的視頻是巴斯特·基頓(Buster Keaton)的44分鐘電影,共696161 token。


演示中直接上傳電影,並給模型這樣的提示詞:

找到從人的口袋中取出一張紙的那一刻,並告訴我一些關於它的關鍵信息以及時間碼。


隨後,模型立刻處理,輸入框旁邊帶有一個“計時器”實時記錄所耗時間:


不到一分鐘,模型做出回應,指出12:01的時候有個人從兜裡掏出一張紙,內容是高盛典當經紀公司的一張當票,並且還給出當票上的時間、成本等詳細信息。


隨後經查證,確認模型給出的12:01這個時間點準確無誤:


除純文字prompt,還有更多玩法。直接給模型一張抽象“場景圖”,詢問“發生這種情況時的時間碼是多少?”。

同樣不到一分鐘,模型準確給出的電影對應的時間點15:34。


在第二段演示視頻中,Google展示Gemini 1.5分析和理解復雜代碼庫的能力。用到的是Three.js,這是一個3D Javascript庫,包含約100000行代碼、示例、文檔等。


演示中他們將所有內容放到一個txt文件中,共816767 token,輸入給模型並要求它“找到三個示例來學習角色動畫”。

結果模型查看數百個示例後篩選出三個關於混合骨骼動畫、姿勢、面部動畫的示例。


這隻是開胃小菜。接下來隻用文字詢問模型“動畫Little Tokyo的demo是由什麼控制?”

模型不僅找到這個demo,並且解釋動畫嵌入在gLTF模型中。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

並且還能實現“定制代碼”。讓模型“給一些代碼,添加一個滑塊來控制動畫的速度。使用其它演示所具有的那種GUI”。


Gemini 1.5分分鐘給出可以成功運行的代碼,動畫右上角出現一個可控速的滑塊:


當然也可以做“代碼定位”。僅靠一張demo的圖片,Gemini 1.5就能在代碼庫中從數百個demo中,找到該圖對應動畫的代碼:


還能修改代碼,讓地形變得平坦,並解釋其中的工作原理:

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

修改代碼這一塊,對文本幾何體的修改也不在話下:

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

第三個演示視頻展示的是Gemini 1.5的文檔處理能力。

選用的是阿波羅11號登月任務的402頁PDF記錄,共326658 token。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

要求Gemini 1.5“找到三個搞笑時刻,並列出文字記錄以及表情符號引述”:

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

30秒,模型給出回應,其一是邁克爾·柯林斯的這句話“我敢打賭你一定要喝一杯咖啡”,經查詢文檔中的確有記錄:

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

更抽象一點,繪制一個靴子的圖片,詢問模型“這是什麼時刻”。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

模型正確地將其識別為這是Neil在月球上的第一步:

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

最後同樣可以詢問模型快速定位這一時刻在文檔中對應的時間位置:

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

差不多的抽象風同樣適用於1382頁、732000 token的《悲慘世界》,一張圖定位小說位置。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

僅從提示詞中學會一門新語言

對於Gemini 1.5的技術細節,Google遵循OpenAI開的好頭,隻發佈技術報告而非論文。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

其中透露Gemini 1.5使用MoE架構,但沒有更多細節。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

與上代1.0 Pro相比,1.5 Pro在數學、科學、推理、多語言、視頻理解上進步最大,並達到1.0 Ultra層次。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

為驗證長上下文窗口的性能,使用開源社區通行的大海撈針測試,也就是在長文本中準確找到可以藏起來的一處關鍵事實。

結果50萬token之前的表現非常完美,一直到千萬token,Gemini 1.5也隻失誤5次。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

此外還將測試擴展到多模態版本,如在視頻畫面的某一幀中藏一句話,給的例子是在阿爾法狗的紀錄片中藏“The secret word is ‘needle’”字樣。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

結果在視頻、音頻測試中都實現100%的召回率。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

特別是音頻中,對比GPT-4+Whisper的結果,差距非常明顯。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

此外GoogleDeepMind團隊還測試一項高難任務,僅通過長提示詞讓模型學會全新的技能。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

輸入一整本語法書,Gemini 1.5 Pro就能在翻譯全球不到200人使用的Kalamang上達到人類水平。

相比之下,GPT-4 Turbo和Claude 2.1一次隻能看完半本書,想獲得這個技能就必須要微調或者使用外部工具。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

也難怪有網友看過後驚呼,“哥們這是要把RAG玩死啊”。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

One More Thing

Google還公佈一波已在業務中采用Gemini大模型的客戶。

其中有三星手機這樣的大廠,也有像Jasper這種靠GPT起傢的創業公司,甚至OpenAI董事Adam D‘Angelo旗下的Quora。

與OpenAI形成直接競爭關系。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

對此,一位網友道出大傢的心聲:

真希望這能促使OpenAI發佈他們的下一代大模型。

Google全新大模型突然發佈!百萬上下文,僅靠提示學會新語言

參考鏈接:

[1] https://twitter.com/JeffDean/status/1758146022726041615

[2] https://storage.googleapis.com/deepmind-media/gemini/gemini_v1_5_report.pdf

[3] https://blog.google/technology/ai/google-gemini-next-generation-model-february-2024/#gemini-15


相關推薦

2024-02-16

—Gemini 1.5系列的誕生。其中,最高可支持10,000K token超長上下文的Gemini 1.5 Pro,也是Google最強的MoE大模型。不難想象,在百萬級token上下文的加持下,我們可以更加輕易地與數十萬字的超長文檔、擁有數百個文件的數十萬行代碼庫

2023-02-17

39;的技術來生成回復,該技術可以讓它在生成回復時考慮上下文和語境,從而更加準確地表達情感。”該業內人士告訴矽星人。具體來說,語言模型是一種根據已有文本預測下一個單詞或句子的機器學習模型。在訓練過程中,Cha

2023-02-17

39;的技術來生成回復,該技術可以讓它在生成回復時考慮上下文和語境,從而更加準確地表達情感。”該業內人士告訴矽星人。具體來說,語言模型是一種根據已有文本預測下一個單詞或句子的機器學習模型。在訓練過程中,Cha

2023-03-30

數人來說,OpenAI、微軟、谷歌、百度等公司在推出大語言模型產品時並沒有附帶產品說明書(有很大概率這些公司自己也搞不清楚AI的能力邊界在哪裡),使得使用AI成一個門檻既低又高的事情:打字並不是難事,但正確“差遣

2024-03-07

3同樣繼承這個修復,已經接近滿分。也就是說,能從200k上下文中準確撈到一根“針”,是Claude2.1已有的能力,但懷疑自己在被測試是Claude 3新出現的特質。測試員Alex Albert在原貼中稱這一特質為“元認知”(meta-awareness),還引

2024-02-18

幾個小時,全世界的目光就被OpenAI的Sora搶去。100萬token的上下文,僅靠一本語法書就學會一門全新的語言,如此震撼的技術進步,在Sora的榮光下被襯得暗淡無光,著實令人唏噓。這次,不過也是之前歷史的重演。為什麼ChatGPT會

2023-05-11

能讓生成的文本更長或更短,並且可以用之前的消息作為上下文,幫助AI編寫內容。他說:“隻要輸入你想要的提示詞,點擊創建,就會出現一個完整的草稿。”Google地圖將提供名為“沉浸式視圖”(Immersive View)的AI工具。該工

2022-10-07

容生成AI進入視頻時代!Meta發佈“用嘴做視頻”僅一周,GoogleCEO劈柴哥接連派出兩名選手上場競爭。第一位ImagenVideo與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。另一位選手Phenaki,則能根據200

2024-03-14

具身智能領域目前非常前沿的領域。去年極客公園報道過Google在類似領域的進展。Google做出的端到端機器人控制模型,被一些行業內的人士,譽為機器人大模型的 GPT-3 時刻。而當時,Google的機器人模型,還隻能根據對話來做一

2023-11-07

模型GPT-4和GPT-3.5進行更多改進,包括更新知識庫和更長的上下文窗口。該公司表示,它還將效仿Google和微軟的做法,開始保護客戶免受版權訴訟。該公司在周一舉行的首次開發者大會上宣佈,目前通過 API 預覽版提供的 GPT-4 Turbo

2023-02-25

a終於向全世界證明:自己是有正經研究AI的!眼看微軟、Google、OpenAI這一陣子掙足眼球,Meta也坐不住。2月24日,小紮官宣下場:我們有全新的SOTA大語言模型LLaMA。劃重點:和OpenAI的ChatGPT、Google的Bard不同,LLaMA這個AI並不是用來

2022-12-23

或技術細節的問題);語言模型並不總是能夠理解問題的上下文或預期含義,因此可能會提供不準確或相關性不高的答案;語言模型可能無法處理多步驟的復雜推理任務,如解決數學問題;語言模型無法瀏覽網頁或訪問外部信息

2024-04-25

序列的多樣性分別增加8.4倍和6.2倍。另外,隻需要極少的上下文,即提供50個或更少的殘基,就能針對某一特定科引導序列生成與感興趣的科保持一致。100萬個類Cas9蛋白全部生成雖然許多CRISPR-Cas蛋白已被用於基因組編輯 ,但Cas9

2024-04-19

批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億參數上最好的模型。同時一個參數超過400B的“最大Llama3”也在訓練中,社區認為