真·拿嘴做視頻:Meta“AI導演”一句話搞定視頻素材


你以為這是哪部紀錄片的畫面?No,No,No!視頻裡的每一幀,都是AI生成的。還是你告訴它,來段“畫筆在畫佈上的特寫”,它就能直接整出畫面的那種。不僅能無中生畫筆,按著馬頭喝水也不是不可以。同樣是一句“馬兒喝水”,這隻AI就拋出這樣的畫面:



好傢夥,這是以後拍視頻真能全靠一張嘴的節奏啊……

不錯,那廂一句話讓AI畫畫的Text to Image正搞得風生水起,這廂Meta AI的研究人員又雙叒給生成AI來個超進化。

這回是真能“用嘴做視頻”:

AI名為Make-A-Video,直接從DALL·E、Stable Diffusion搞火的靜態生成飛升動態。

給它幾個單詞或幾行文字,就能生成這個世界上其實並不存在的視頻畫面,掌握的風格還很多元。

不僅紀錄片風格能hold住,整點科幻效果也沒啥問題。


兩種風格混合一下,機器人在時代廣場蹦迪的畫面好像也沒啥違和感。


文藝小清新的動畫風格,看樣子Make-A-Video也把握住。


這麼一波操作下來,那真是把不少網友都看懵,連評論都簡化到三個字母:


而大佬LeCun則意味深長地表示:該來的總是會來的。


畢竟一句話生成視頻這事兒,之前就有不少業內人士覺得“快快”。隻不過Meta這一手,確實有點神速:

比我想象中快9個月。


甚至還有人表示:我已經有點適應不AI的進化速度……


文本圖像生成模型超進化版

你可能會覺得Make-A-Video是個視頻版的DALL·E。

實際上,差不多就是這麼回事兒

前面提到,Make-A-Video是文本圖像生成(T2I)模型的超進化,那是因為這個AI工作的第一步,其實還是依靠文本生成圖像。

從數據的角度來說,就是DALL·E等靜態圖像生成模型的訓練數據,是成對的文本-圖像數據。

而Make-A-Video雖然最終生成的是視頻,但並沒有專

門用成對的文本-視頻數據訓練,而是依然靠文本-圖像對數據,來讓AI學會根據文字復現畫面。

視頻數據當然也有涉及,但主要是使用單獨的視頻片段來教給AI真實世界的運動方式。


具體到模型架構上,Make-A-Video主要由三部分組成:

文本圖像生成模型P

時空卷積層和註意力層

用於提高幀率的幀插值網絡和兩個用來提升畫質的超分網絡

整個模型的工作過程是醬嬸的:

首先,根據輸入文本生成圖像嵌入。

然後,解碼器Dt生成16幀64×64的RGB圖像。

插值網絡↑F會對初步結果進行插值,以達到理想幀率。

接著,第一重超分網絡會將畫面的分辨率提高到256×256。第二重超分網絡則繼續優化,將畫質進一步提升至768×768。

基於這樣的原理,Make-A-Video不僅能根據文字生成視頻,還具備以下幾種能力。

將靜態圖像轉成視頻:


根據前後兩張圖片生成一段視頻:


根據原視頻生成新視頻:


刷新文本視頻生成模型SOTA

其實,Meta的Make-A-Video並不是文本生成視頻(T2V)的首次嘗試。

比如,清華大學和智源在今年早些時候就推出他們自研的“一句話生成視頻”AI:CogVideo,而且這是目前唯一一個開源的T2V模型。

更早之前,GODIVA和微軟的“女媧”也都實現過根據文字描述生成視頻。

不過這一次,Make-A-Video在生成質量上有明顯的提升。

在MSR-VTT數據集上的實驗結果顯示,在FID(13.17)和CLIPSIM(0.3049)兩項指標上,Make-A-Video都大幅刷新SOTA。


此外,Meta AI的團隊還使用Imagen的DrawBench,進行人為主觀評估。

他們邀請測試者親身體驗Make-A-Video,主觀評估視頻與文本之間的邏輯對應關系。

結果顯示,Make-A-Video在質量和忠實度上都優於其他兩種方法。


One More Thing

有意思的是,Meta發佈新AI的同時,似乎也拉開T2V模型競速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住,創始人兼CEO Emad放話道:

我們將發佈一個比Make-A-Video更好的模型,大傢都能用的那種!


而就在前幾天,ICLR網站上也出現一篇相關論文Phenaki。

生成效果是這樣的:


對,雖然Make-A-Video尚未公開,但Meta AI官方也表示,準備推出一個Demo讓大傢可以實際上手體驗,感興趣的小夥伴可以蹲一波。


相關推薦

2024-02-16

快科技2月16日消息,OpenAI日前發佈首款文生視頻模型Sora模型,完美繼承DALLE 3的畫質和遵循指令能力其支持用戶輸入文本描述,生成一段長達1分鐘的高清流暢視頻。該模型可以深度模擬真實物理世界,標志著人工智能在理解真實

2024-02-20

作為龍年科技界的“第一把火”,OpenAI最新爆款文生視頻模型Sora的熱度正在以驚人的速度持續發酵。除震驚世界的AI視頻技術,其幕後主創團隊也來到聚光燈下。據OpenAI發佈的Sora技術報告,Sora作者團隊僅有13人,其中3名為華人

2022-10-07

內容生成AI進入視頻時代!Meta發佈“用嘴做視頻”僅一周,GoogleCEO劈柴哥接連派出兩名選手上場競爭。第一位ImagenVideo與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。另一位選手Phenaki,則能根據2

2024-02-20

縮短到1年”,而背後的原因,僅僅是因為一個1分鐘的短視頻。註意看,這個女人叫小美,她正向我們走來。雖然身處日本某條熱鬧的大街,小美卻總是不停地回頭張望,似乎在暗示觀眾鏡頭之外隱藏不為人知的秘密。▲圖:主

2023-03-18

燈片。隻要幾秒鐘,它能馬上給你搞定一切。至於微軟的視頻會議軟件 Teams,在結合 Copilot 後,也被加強到有點恐怖。你可以隨時要求 Copilot 總結目前為止已經討論的信息,它甚至還能給出人們討論時的立場,以及哪些問題還沒

2024-04-15

央視用AI播新聞。一些網友發現,近期央視的幾段新聞視頻中,右上角被標註“AI創作”字樣:3月29日,央視《晚間新聞》在描述候鳥遷徙的背景資料時,選用AI生成的視頻;4月3日,央視《新聞直播間》在解釋“強對流天氣”並

2024-04-17

體時間。根據Adobe官方演示,AI加持的PR實現一句話就能P視頻,用戶隻需輸入文本提示詞,就能添加、改變和刪除物體,增加輔助鏡頭,甚至還能把某個鏡頭延長幾幀。為實現這些AI功能,Adobe不僅在開發自己的視頻模型,還在PR

2024-08-08

原生的AI網盤服務和智能座艙融合,打造業界首個雲端音視頻一體在線播放車載應用。今年4月,百度網盤就已入駐汽車機器人”極越01的智能座艙,車主們不再需要依賴手機或移動硬盤,隻需通過極越汽車內置的SIMO助手,一句話

2023-11-06

邊修的制作流程,所以在這麼多卡之中,要找出適合自己做視頻選題的顯卡,並不是一件容易的事。他也會碰到其他視頻創作者都會碰到的玄學問題——永遠摸不準觀眾的口味。有時候以為拍出來效果很好的顯卡,結果沒什麼量

2022-10-23

Q、其他品牌兒童手表版微信及QQ加好友,發消息、打語音視頻電話,溝通更方便。可支持微信、支付寶支付,其中微信支付可使用傢長微信掃碼開啟付款碼,並可設置每日限額;支付寶支持消費限額、傢長可隨時禁用。米兔兒童

2024-06-22

快科技6月22日消息,最近,一段視頻在社交媒體上引起廣泛關註。視頻中,一位來自湖北的初中語文老師在高鐵上遇到一群吵鬧的小孩。然而,這位老師的一句話立刻讓整個車廂恢復寧靜。在視頻中,可以看到這群小孩正在嘻哈

2024-06-09

近日,一段客戶網購要求退款211元祝孩子考211的視頻在社交平臺走紅,引發網友熱議。6月7日,一電商商傢遭遇奇葩”客戶,要求僅退款211祝孩子考211,結果一句話讓對方秒慫”。視頻中,這位客戶稱,自己孩子高考,能不能僅

2024-06-25

分享自己的學習秘籍。在作文方面,他建議同學們進行“一句話審題訓練”,即用一句話概括文章的主旨大意,並在此基礎上進行發揮。這種訓練方法有助於同學們更好地理解題目,避免跑題,從而在考試中取得更好的成績。在

2024-05-08

浪科技,早在今年3月,璩靜便要求百度公關部全員轉型做視頻自媒體,除高層外,要求每個員工都開設自己的視頻號,如果運營好,粉絲量足夠高的話,可以為百度產品帶貨,員工的視頻號表現影響當年年終績效。而這件事的