Meta的新型AI模型可通過觀看視頻進行學習 未來還將加入聲音數據維度


Meta公司的人工智能研究人員發佈一個新模型,該模型的訓練方式與當今的大型語言模型類似,但它不是從書面文本中學習,而是從視頻中學習。LLM通常在數千個句子或短語中進行訓練,其中一些詞語被屏蔽,迫使模型尋找最佳詞語來填補空白,這樣,它們就能獲得對世界的基本感知。

1707953912363.jpg

Meta公司 FAIR(基礎人工智能研究)小組負責人Yann LeCun提出,如果人工智能模型能在視頻片段中使用相同的遮蔽技術,它們就能更快地學習。

LeCun 說:"我們的目標是打造先進的機器智能,使其能夠像人類一樣學習。形成周圍世界的內部模型,以便高效地學習、適應和制定計劃,為完成復雜任務服務。"

LeCun 理論的具體體現是一種名為視頻聯合嵌入預測架構(V-JEPA)的研究模型。它通過處理無標記的視頻來進行學習,並推測出在黑屏的幾秒鐘內,屏幕的某一部分可能發生什麼。

需要註意的是,V-JEPA 並不是一個生成模型。Meta 的研究人員說,V-JEPA 在使用視頻遮蔽進行預訓練後,"擅長檢測和理解物體之間高度細致的互動"。這項研究可能會對 Meta 和更廣泛的人工智能生態系統產生重大影響。

Meta公司之前在開發增強現實眼鏡時曾談到過"世界模型"。這種眼鏡將使用這樣一個模型作為人工智能助手的大腦,除其他外,它還能預測向用戶展示哪些數字內容,以幫助用戶完成工作並獲得更多樂趣。該模型從一開始就對眼鏡外的世界具有視聽理解能力,但隨後可以通過設備的攝像頭和麥克風快速解用戶世界的獨特特征。

V-JEPA 還可能改變人工智能模型的訓練方式。目前的基礎模型預訓練方法需要大量的時間和計算能力(這對生態環境有影響)。換句話說,目前開發基礎模型是富人的專利。有更高效的訓練方法,這種情況就會改變。這符合Meta 的戰略,即以開源方式發佈其大部分研究成果,而不是像 OpenAI 和其他公司那樣將其作為有價值的知識產權加以保護。如果訓練成本降低,規模較小的開發者也許就能訓練出規模更大、能力更強的模型。

LeCun 認為,目前的模型通過視覺和聽覺進行學習,這正在減緩向人工通用智能(通常需要比人類更聰明)發展的速度。

在 V-JEPA 之後,Meta 的下一步計劃是在視頻中加入音頻,這將為模型提供一個全新的學習數據維度,這就像一個孩子在觀看靜音電視時將聲音調大一樣。孩子們不僅能看到物體的移動,還能聽到人們談論物體的聲音。

Meta 公司表示,它將以知識共享(Creative Commons)非商業許可的方式發佈 V-JEPA 模型,這樣研究人員就可以對其進行實驗,或許還能擴展其功能。


相關推薦

2024-02-23

OpenAI日前推出的視頻生成模型Sora持續引爆相關概念,被視為視頻生成服務的重大突破。然而,來自競爭對手的科學傢卻潑一盆冷水。Sora因其視頻穩定性和清晰度而受到市場青睞,但還有一些人對其給予更高厚望,認為其或許有

2024-03-13

enAI 研究科學傢,Sora 負責人。Aditya Ramesh,OpenAI 圖像生成模型 DALL·E 開發者,Sora 負責人。Q:簡單地解釋一下 Sora 的工作原理?A:總的來說,Sora 是一個生成模型。這幾年面世的生成模型很多,包括 GPT 等語言模型,DALL·E 等圖

2024-04-08

一數據庫,再結合語義空間理論,Alan Cowen團隊開發一種新型的多模態大語言模型,移情大語言模型 (eLLM))。基於這一模型,EVI便能夠根據上下文和用戶的情緒表達來調整其用詞和語氣,提供自然豐富的語調,並以低於700毫秒的

2023-05-07

物手臂的運動,重建老鼠在場地中自由奔跑的位置。這種新型的機器學習算法名為CEBRA (與zebra同音) ,能夠學習神經代碼中的隱藏結構。為解小鼠視覺系統中的隱藏結構,CEBRA可以在一個初始的訓練階段後,直接從大腦信號中

2024-06-09

光學和電子研究所(INAOE)的研究人員合作,開發一種AI模型,能夠以高達70%的準確率識別狗的叫聲是在玩耍、生氣還是表達其他情感。這項研究的靈感來源於人工智能在理解人類語音方面的顯著進步,特別是在區分音調、音色

2024-03-18

最近,Google重磅發佈一篇論文報告,裡面提出一種名為“模型竊取”的技術。通過模型竊取技術,Google成功破解ChatGPT基礎模型Ada和Babbage的投影矩陣,甚至連內部隱藏維度的關鍵信息也是直接破獲,分別是1024和2048。這一發現猶

2024-03-07

發展藍圖”的關鍵一環。他詳細解釋稱,這一全新AI推薦模型將不僅支持類似於TikTok的Reels短視頻服務,還將覆蓋更多的傳統長視頻內容。艾裡森在舊金山的摩根士丹利科技會議上提到,目前Meta對各個產品均采用獨立的推薦模型

2024-02-18

視頻)。而與他們不同的是,Sora是一位基礎知識紮實的新型廚師。它不僅能照著舊食譜做菜,還能自己發明新食譜!這位住大廚多才多藝,對於食材(數據)和技術(模型架構)的掌握十分靈活,因而能夠做出各種高質量的視

2023-05-12

Meta周二(5月9日)宣佈一個新的開源人工智能(AI)模型ImageBind,該模型可以將六種類型的數據流聯系在一起。ImageBind以視覺(圖片和視頻)為核心,結合文本、聲音、3D深度、溫度、運動讀數(IMU),最終可以做到在六個模態

2024-03-19

偉達CEO黃仁勛 GTC 會議上表示,一種名為 Blackwell架構的全新型GPU處理器設計架構在處理支持人工智能的大語言模型訓練/推理方面速度提高數倍,並且正式推出其所向披靡的A100/H100 AI GPU的繼任者——B100。並且黃仁勛告知全球科技

2023-08-07

日消息,近日,英國研究人員宣佈,開發出一個深度學習模型,能夠通過捕捉用戶敲擊鍵盤的聲音,來竊取諸如用戶名、密碼、輸入信息等敏感內容。同時,該模型有著高達95%的準確率。甚至於,這一模型算法,能夠僅通過視頻

2022-06-30

心理念是認為人類是基於已有經驗,形成瞭一個心理世界模型,我們所做的決定和行動都是基於這個內部模型。比如人類在打棒球時,做出反應的速度遠比視覺信息傳達到大腦中的快,那麼在這種情況下還能正確回球的原因,就

2023-02-06

刪除塊狀壓縮偽影和提高視頻分辨率,來提高在瀏覽器中觀看任何視頻的質量,並提高視頻的銳度和清晰度,從而實現在高分辨率顯示器上以原始分辨率觀看在線內容。對於RTX 40系與30系顯卡的用戶來說,很快開始就能夠啟用該

2023-02-08

探索路媒體稱,近十年來,Meta已斥資約數十億美元打造新型人工智能,早在2013年,首席執行官馬克·紮克伯格 (Mark Zuckerberg)就將Meta成為人工智能領域的先行者視為使命,聘請包括Yann LeCun博士在內的數百名頂級人工智能研究人員