Meta開源AI模型引入多模態轉換 聽音頻就能畫畫


Meta周二(5月9日)宣佈一個新的開源人工智能(AI)模型ImageBind,該模型可以將六種類型的數據流聯系在一起。ImageBind以視覺(圖片和視頻)為核心,結合文本、聲音、3D深度、溫度、運動讀數(IMU),最終可以做到在六個模態之間的任意轉換。


ImageBind為機器提供一個整體的理解,將照片中的物體與它們的聲音、3D形狀、冷暖程度、以及它們的移動方式聯系起來。

Meta稱,ImageBind使機器能夠更同步、更全面、更直接地從不同信息形式中學習,進一步向人類靠攏。

AI的未來

該研究的核心概念是將多種類型的數據連接到一個嵌入空間(Embedding Space)中,正是這個概念支撐著最近生成式AI的蓬勃發展。

例如,Meta的AI圖像生成器Make-A-Scene可以在ImageBind模型的支持下,從音頻中創建圖像,例如根據雨林或熙熙攘攘的市場的聲音創建圖像。

ImageBind還可以提供一種豐富的方式來探索記憶,也就是使用文本、音頻和圖像的組合來搜索相關信息。

此外,ImageBind為研究人員開發新的整體系統提供思路,例如結合3D和IMU傳感器來設計或體驗沉浸式虛擬世界。這不就是Meta一直以來追求的“元宇宙”嗎?


上圖是Meta在一篇博客文章中給出的案例:當輸入一段企鵝的叫聲後,ImageBind能生成企鵝的圖片;當輸入鴿子的照片和一段汽車轟鳴聲後,ImageBind能生成一張“人開車驚動鴿群”的照片;ImageBind還可以根據一段火車的音頻,生成火車的照片、相關的火車3D模型、以及一段形容火車車站的文本。

該模型目前還隻是一個研究項目,沒有直接的消費者或實際應用,不過它這種交叉引用數據的模型指明生成式AI系統的未來,因為它可以創造身臨其境的多感官體驗。

Meta在博客文章中指出,其他感官輸入流也可能會被添加到未來的模型中,包括“觸覺、聽覺、嗅覺和大腦功能磁共振成像信號”。

想象一下,在未來的一臺設備上,你可以讓它模擬一次漫長的海上航行,它不僅會讓你置身於一艘以海浪為背景聲音的船上,還會讓你感受到腳下甲板的搖晃和海上空氣的涼爽。

開源與限制

當然,這一切都是推測的,而且像這樣的研究的直接應用可能會受到更多的限制。

然而,對於行業觀察者來說,這項研究很有趣,因為Meta已將其ImageBind的代碼開源,這一做法在AI領域受到愈發嚴格的審查。

OpenAI等反對開源的行業人士稱,這種做法對創造者有害,因為競爭對手可以復制他們的作品,而且這種做法可能存在潛在危險,允許惡意行為者利用最先進的人工智能模型。

不過開源的支持者反擊道,開源本質上是允許第三方開發人員作為無償員工來對模型進行改進,從而進一步產生商業效益。迄今為止,Meta一直堅定地站在開源陣營。


相關推薦

2023-05-11

這麼快翻唱這麼多首歌,到底是咋實現的?關鍵在於一個開源項目。最近,這波AI翻唱趨勢大火,不僅是AI孫燕姿唱的歌越來越多,AI歌手的范圍也在擴大,就連制作教程都層出不窮。而如果在各大教程中溜達一圈後就會發現,其

2022-06-30

真,更“聰明”事實上,Parti 的能力還不止於此。得益於模型可擴展到 200 億參數,一方面,它生成的圖像更加細節逼真。不管是短短幾個字,還是五十多個個單詞的小段落,都能清晰展現出來。比如,The back of a violin,小提琴

2024-03-02

究人員解決活動檢測和說話者分離等問題。- 💡 提出的模型利用多模態數據集 MSCSG 數據集,包括音頻、視頻和 IMU 信號,以提高轉錄準確性。- 💡 通過整合各種技術來改善實時對話的轉錄準確性,包括目標說話者識別 / 定位、

2024-04-19

AI圈又迎來一件大事:Meta正式發佈他們迄今最強的新一代開源大語言模型Llama3。首批發佈的Llama38B和Llama370B包括預訓練和指令微調版本,8K上下文,在兩個24KGPU定制集群上使用15萬億tokens數據訓練而成,Meta稱它們分別是80億和700億

2022-11-06

11月6日消息,近日,Meta公佈一項名為EnCodec”的AI語音壓縮技術,該技術號稱可以64kbps的速度壓縮比MP3格式小10倍的音頻,同時還能保證不會損失質量。Meta指出,壓縮技術對目前互聯網十分重要,借助於此用戶可以十分容易的發

2024-04-15

型領域不斷取得進步,向OpenAI等先行者發起進攻。在Grok-1開源後不到一個月,xAI的首個多模態模型就問世。昨天,xAI推出Grok-1.5V,該模型不僅能理解文本,還能處理文檔、圖表、截圖和照片中的內容。官方博文表示:“Grok-1.5V

2024-04-10

4月10日消息,谷歌升級大語言模型Gemini1.5Pro,為其配備“耳朵”,使其能夠監聽並分析上傳的音頻文件,從財報電話會議或視頻音頻中提取關鍵信息,無需轉為書面材料。在美國時間周二舉辦的GoogleNext大會上,谷歌宣佈,通過

2023-03-23

的風格參數來調整圖像效果。“我們覺得結合語言的生成模型代替的是傳統的各類資產庫,就好像大語言模型(LLM)之於搜索引擎、文本轉圖片(texttoimage)之於‘視覺中國’。”影眸科技首席技術官張啟煊對第一財經記者表示

2024-04-04

著名大模型開源平臺StabilityAI發佈音頻生成模型StableAudio2.0,現在允許用戶上傳自己的音頻樣本,然後通過提示轉換音頻樣本並免費創造AI生成的歌曲。StableAudio的第一版在2023年9月發佈時,僅為一些付費用戶提供最多90秒的音頻,

2024-02-22

昨日晚間,Google毫無預兆地發佈開源模型Gemma,直接狙擊Llama2,繼通過Gemini拳打OpenAI後,試圖用Gemma腳踢Meta。不同於Gemini的“全傢桶”路線,Gemma主打輕量級、高性能,有20億、70億兩種參數規模,能在筆記本電腦、臺式機、物聯

2023-12-07

時代變?迄今為止規模最大,能力最強的Google大模型來。當地時間12月6日,GoogleCEO桑達爾・皮查伊官宣Gemini1.0版正式上線。這次發佈的 Gemini 大模型是原生多模態大模型現在,Google的類 ChatGPT 應用 Bard 已經升級到 Gemini Pro 版本,

2024-04-19

沒有出乎太多意外,Meta帶著號稱“有史以來最強大的開源大模型”Llama3系列模型來“炸街”。具體來說,Meta本次開源8B和70B兩款不同規模的模型。Llama38B:基本上與最大的Llama270B一樣強大。Llama 3 70B: 第一檔 AI 模型,媲美 Gemini 1

2022-10-08

“一句話生成視頻”AI:CogVideo,而且這是目前唯一一個開源的T2V模型。更早之前,GODIVA和微軟的“女媧”也都實現過根據文字描述生成視頻。不過這一次,Make-A-Video在生成質量上有明顯的提升。在MSR-VTT數據集上的實驗結果顯示

2024-02-27

於驍龍或高通平臺打造AI應用。高通AI Hub將支持超過75個AI模型,包括傳統AI模型和生成式AI模型。通過對這些模型進行優化,開發者運行AI推理的速度將提升高達4倍。不僅是速度提升,優化後的模型占用的內存帶寬和存儲空間也