抖音跳舞不用真人出鏡 一張照片就能生成高質量視頻


看!現在正有四位小姐姐在你面前大秀熱舞:以為是某些主播在短視頻平臺發佈的作品?No,No,No。真實答案是:假的,生成的,而且還是隻靠一張圖的那種!



真實的打開方式是這樣的:


這就是來自新加坡國立大學和字節跳動最新的一項研究,名叫MagicAnimate

它的作用簡單來說可以總結為一個公式:一張圖片 + 一組動作 = 毫無違和感的視頻


然後啊,這項技術一經公佈,可謂是在科技圈裡掀起不小的波瀾,眾多科技大佬和極客們紛紛下場耍起來。

就連HuggingFace CTO都拿自己的頭像體驗一把:


順便還風趣地開句玩笑:

這算是健身吧?我這周可以不去健身房。

還有相當與時俱進的網友,拿著剛出爐的GTA6(俠盜獵車手6)預告片中的人物玩一把:


甚至就連表情包們也成網友們pick的對象……


MagicAnimate可以說是把科技圈的目光聚焦到自己身上,因此也有網友調侃說:

OpenAI可以休息一下。


火,著實是火。

一張圖即可生成一段舞

那麼如此火爆的MagicAnimate,該如何“食用”?

話不多說,我們現在就來手把手地體驗一次。

目前項目團隊已經在HuggingFace中開放在線體驗的頁面:


操作也是非常得簡單,隻需三步即可:

上傳一張靜態人物照片

上傳想要生成的動作demo視頻

調整參數,點擊“Animate”即可

例如下面就是鄙人照片和一段近期席卷全球的《科目三》舞蹈片段:


視頻源:抖音(ID:QC0217)

也可以選擇頁面下方提供的模版進行體驗:


不過需要註意的是,由於MagicAnimate目前過於火爆,在生成的過程中可能會出現“宕機”的情況:


即便成功“食用”,可能也得排大隊

……


(沒錯!截至發稿,還是沒有等到結果!

除此之外,MagicAnimate在GitHub中也給出本地體驗的方式,感興趣的小夥伴可以試試哦~


那麼接下來的一個問題便是:

怎麼做到的?

整體而言,MagicAnimate采用的是基於擴散模型(diffusion)的一個框架,目的就是增強時間一致性、保持參考圖像的真實性,並提高動畫保真度。


為此,團隊首先開發一個視頻擴散模型(Temporal Consistency Modeling)來編碼時間信息。

這個模型通過在擴散網絡中加入時間註意力模塊,來編碼時間信息,從而確保動畫中各幀之間的時間一致性。

其次,為保持幀間的外觀一致性,團隊引入一種新的外觀編碼器(Appearance Encoder)來保留參考圖像的復雜細節。

這個編碼器與以往使用CLIP編碼的方法不同,能夠提取密集的視覺特征來引導動畫,從而更好地保留身份、背景和服裝等信息。

在這兩項創新技術的基礎之上,團隊進一步采用一種簡單的視頻融合技術(Video Fusion Technique)來促進長視頻動畫的平滑過渡。

最終,在兩個基準上的實驗表明,MagicAnimate的結果要遠優於以往的方法。

尤其是在具有挑戰性的TikTok舞蹈數據集上,MagicAnimate在視頻保真度方面比最強基線高出38%以上!

團隊所給出的定性比較如下:


以及與cross-ID的SOTA基線相比,結果如下:


One More Thing

不得不說,諸如MagicAnimate的項目最近著實是有點火爆。

這不,在它“出道”前不久,阿裡團隊也發佈一個名叫Animate Anyone的項目,同樣是隻要“一張圖”和“想要的動作”:


由此,也有網友發出疑問:

這似乎是MagicAnimate和AnimateAnyone之間的戰爭。誰更勝一籌?



相關推薦

2023-03-24

差異,看起來並不自然。海外社交平臺截圖即便是仿真如真人的上述特朗普組圖中,在一張圖片中“特朗普兩條腿粗細明顯不一,差別很大。”分享AI生成特朗普圖片的網友稱,“在一張合成圖中,特朗普有三條腿,但仍有人將

2023-11-17

工智能創意工具,這些工具將允許用戶使用文字描述編輯照片和制作"高質量視頻"。本周四,Meta首席執行官馬克-紮克伯格(MarkZuckerberg)宣佈兩項基於Emu(該公司圖像生成的基礎模型)的新功能,並將整合到F

2023-03-24

模特,AI模特完全夠我們用。”還有網友表示:“AI模特不用敲時間,不用等候耍大牌的,不用化妝、攝影團隊,不用等天氣。一小時跑出來8000張精修圖,哪怕99.99%都是廢圖,能跑出來一張都是賺的。”對此,淘寶內衣店老板悅

2024-02-20

ga 的“流量密碼”,但這些也隻會加重受害者的痛苦。在抖音等平臺,利用 Olga 肖像權制作虛假視頻的內容,往往是關於戰爭中俄羅斯一方的言論:例如“俄羅斯會感激中國朋友的支持”等在短視頻平臺反響熱烈的話題。諷刺的

2024-06-19

效便捷小功能,輕松打造同款數字人視頻一張照片生成3d真人動畫:上傳一張人物照片,通過音頻驅動人物開口說話,音頻可以用文字生成、也可以通過錄音和視頻提取,也可用app裡的模板照片應用多種創意特 效和豐富配音。一

2024-03-18

全球首個開源的類Sora架構視頻生成模型,來!整個訓練流程,包括數據處理、所有訓練細節和模型權重,全部開放。這就是剛剛發佈的Open-Sora1.0。它帶來的實際效果如下,能生成繁華都市夜景中的車水馬龍。還能用航拍視角,

2024-02-18

擴展視頻的長度等等。為DALL·E圖像賦予生命Sora能夠接受一張圖像和文本提示,然後基於這些輸入生成視頻。下面即是Sora基於DALL·E 2和DALL·E 3圖像生成的視頻。一隻戴貝雷帽和黑高領衫的柴犬。一傢五口怪物的插畫,采用簡潔明

2024-02-18

擴展視頻的長度等等。為DALL·E圖像賦予生命Sora能夠接受一張圖像和文本提示,然後基於這些輸入生成視頻。下面即是Sora基於DALL·E 2和DALL·E 3圖像生成的視頻。一隻戴貝雷帽和黑高領衫的柴犬。一傢五口怪物的插畫,采用簡潔明

2024-02-17

擴展視頻的長度等等。為DALL·E圖像賦予生命Sora能夠接受一張圖像和文本提示,然後基於這些輸入生成視頻。下面即是Sora基於DALL·E 2和DALL·E 3圖像生成的視頻。一隻戴貝雷帽和黑高領衫的柴犬。一傢五口怪物的插畫,采用簡潔明

2024-02-17

擴展視頻的長度等等。為DALL·E圖像賦予生命Sora能夠接受一張圖像和文本提示,然後基於這些輸入生成視頻。下面即是Sora基於DALL·E 2和DALL·E 3圖像生成的視頻。一隻戴貝雷帽和黑高領衫的柴犬。一傢五口怪物的插畫,采用簡潔明

2022-08-11

體面”,更多是在打凡客的情懷牌。和沉默的陳年不同,抖音上眾多凡客“矩陣號”異常活躍,每天開播帶貨,發佈各類短視頻追憶往昔,引發不少網友“野性消費”,買下凡客T恤與POLO衫, “支持我青春的回憶”!在天貓上,

2024-04-08

Getty Images水印,逐字輸出紐約時報文章的段落,甚至再現真人圖像。Getty Images指責Stability AI“以驚人的規模肆無忌憚地侵犯它的知識產權”也就是說,幾十年前某人發佈的私人照片或私密想法,很可能在不知情的情況下,被AI模

2022-12-21

可能會輕易地發生在我們每個普通人的身上。當AIGC遇上真人Arts Technica表示,一開始在計劃做這個實驗時,他們征集一些願意分享自己的社交媒體圖片來做AI實驗訓練的志願者,但由於生成出來的照片太真實、帶來的潛在名譽危

2024-08-06

對於多數傢長來說,不知道給孩子看什麼內容,所以你在抖音上經常會看到許多傢長在搜索或者詢問。c、抖音上有許多賬號,分享的內容,都隻有一部分,很多人寶媽拿不到完整的資源。02兒童動畫的形式有很多種關於兒童的動