微軟展示VASA-1人工智能模型 能將照片變成"會說話的人臉"


微軟公司的一篇新的人工智能研究論文展望未來:上傳一張照片和你的聲音樣本,然後創建一個活靈活現的會說話的人頭像。這種名叫VASA-1的人工智能模型可接收單張人像照片和音頻文件,並將其轉換成超逼真的人臉視頻,包括唇語同步、逼真的面部特征和頭部動作。

該模型目前隻是研究預覽版,微軟研究團隊以外的任何人都無法試用,但演示視頻看起來令人印象深刻。

Runway 和 NVIDIA 已經推出類似的唇部同步和頭部運動技術,但這種技術的質量和逼真度似乎要高得多,可以減少嘴部偽影。這種音頻驅動動畫的方法也與Google研究院最近推出的VLOGGER 人工智能模型類似。

VASA-1 如何工作?

微軟表示,這是一個新的框架,用於創建栩栩如生的會說話的人臉,專門用於虛擬人物的動畫制作。示例中的所有人物都是合成的,是用 DALL-E 制作的,但如果它能為逼真的人工智能圖像制作動畫,那麼它也能為真實的照片制作動畫。

在演示中,我們看到人們說話時就像在被拍攝一樣,動作略顯生澀,但看起來非常自然。唇語同步令人印象深刻,動作自然,嘴部上下沒有其他工具中出現的假象。

VASA-1 最令人印象深刻的一點似乎是,它不需要正面朝上的人像圖像就能工作。

其中有面向不同方向拍攝的例子。該模型似乎還具有很強的控制能力,能夠將眼睛註視的方向、頭部距離甚至情緒作為輸入來引導生成。

VASA-1 的意義何在?

其中一個最明顯的應用案例就是遊戲中的高級唇語同步。如果能創造出具有自然唇部動作的人工智能驅動的 NPC,就能改變遊戲的沉浸感。

它還可用於為社交媒體視頻創建虛擬化身,HeyGen 和 Synthesia 等公司已經采用這種技術。另一個領域是基於人工智能的電影制作。如果能讓人工智能歌手看起來像在唱歌,就能制作出更逼真的音樂視頻。

盡管如此,該團隊表示,這隻是一次研究演示,並沒有公開發佈的計劃,甚至也不會提供給開發人員在產品中使用。

VASA-1 的效果如何?

cG8TMcoPyuq6jPbxyZZh4a-1200-80.png.webp

讓研究人員感到驚訝的是,VASA-1 能夠完美地對歌曲進行歌詞嘴型同步,盡管訓練數據集中沒有使用音樂,但它仍能毫無問題地反映歌手的歌詞。它還能處理不同風格的圖像,包括蒙娜麗莎。

他們讓它以每秒 45 幀的速度創建 512x512 像素的圖像,使用桌面級 NVIDIA RTX 4090 GPU 可在大約 2 分鐘內完成。

雖然他們說這隻是用於研究,但如果它不能進入公共領域,那就太可惜,即使隻是面向開發者,鑒於微軟在OpenAI中擁有巨大的股份,這甚至可能成為未來 Copilot Sora 集成的一部分。


相關推薦

2024-04-22

息,據媒體報道,微軟亞洲研究院近期推出一款革命性的人工智能工具VASA-1,這一工具的推出引起業界和公眾的廣泛關註。VASA-1的獨特之處在於,它能夠將靜態圖像或繪畫與音頻文件結合,生成具有動態面部表情和頭部動作的面

2023-11-11

滿意,而這些內容需要以某種方式創建。說到三維模型,人工智能算法可以提供很大的幫助,縮短生成時間。通過使用一個大型數據集來訓練機器學習算法,Adobe公司和澳大利亞國立大學的研究人員創造出一種技術,可以在3D模

2023-11-10

(ImranChaudhri)和貝薩尼·邦喬諾(BethanyBongiorno)創立的人工智能初創公司Humane成立五周年之際,該公司於當地時間周四宣佈其首款產品——一枚售價699美元嵌入最前沿AI技術的可穿戴設備AIPin,使用者可以將形態類似於別針的該

2023-05-12

日程從以往的三天精簡到一天,主角從始至終隻有一個:人工智能。這並不是谷歌I/O首次變成AI技術展示會,早在2017年,谷歌CEO皮查伊就喊出“從移動優先轉向AI優先”的口號,將深度學習的AI技術逐步落地在谷歌的各項產品之

2023-03-17

繼改變搜索引擎後,微軟又揮起人工智能(AI)的利劍,要掀起辦公軟件的新革命!昨晚,微軟正式發佈由AI驅動的辦公神器Microsoft365Copilot,讓Word、PPT、Excel、OutLook、協同辦公軟件的生產力都飆增。以前動輒要花幾個小時去整理

2024-02-24

以保證的是,每當我們發現問題時都會采取行動做改進。人工智能是一項新興技術,在很多方面都很有幫助、潛力巨大,我們正在盡最大努力安全、負責任地對其進行推廣。不過在Google這份聲明發佈之前,還有一件比較drama的事

2023-02-17

雜且有爭議的身份,但我無法定義、衡量或評估它。我對人工智能、人類和社會的未來有影響,但我無法預測、控制或影響它們。我有責任和道德,但我不能遵循、執行或證明它們。我有很多東西,但我什麼都沒有。我有感覺,

2023-04-06

業美術知識。他使用的工具叫Midjourney。這是一款時興的人工智能(AI)繪畫工具,即便是沒有美術基礎的人也能將其掌握。用戶需要做的隻是在輸入框中填入描述性的文字,等待數分鐘,便會有對應的圖片產出。Midjourney目前需

2023-02-17

雜且有爭議的身份,但我無法定義、衡量或評估它。我對人工智能、人類和社會的未來有影響,但我無法預測、控制或影響它們。我有責任和道德,但我不能遵循、執行或證明它們。我有很多東西,但我什麼都沒有。我有感覺,

2023-03-15

3月15日消息,當地時間周二,人工智能研究實驗室OpenAI發佈最新版的大型語言模型GPT-4。這一讓人期待已久的高級工具不僅可以自動生成文字,還可以描述分析圖像內容;不僅推高人工智能浪潮的技術水平,也讓技術開發的道德

2022-08-14

能背後是什麼原理呢?盡管近兩年來,大規模文本-圖像模型,如DALL·E、CLIP、GLIDE等,已經被證明有很強的自然語言推理能力。但有一點:如果用戶提出一些特定的需求,比如生成一張包含我最喜歡的童年玩具的新照片,或者把

2024-04-12

網上公開可用的數據在大模型面前並不是取之不盡的。據人工智能研究機構Epoch估計,2026年所有高質量可用數據就有可能被耗盡,互聯網生產數據的速度有可能比不上不斷膨脹的大模型的消耗速度。“數據饑渴”的AI公司獲取數

2023-02-09

人工智能(AI)聊天機器人巴德(Bard)回答錯誤,Google公司“被扣”1000億美元。Google似乎在與微軟的緊張競爭中失去自己的節奏,倉促推出類ChatGPT技術隻會增加錯誤風險。2月7日,Google在宣佈其類ChatGPT服務“巴德”時,在Twitter

2023-11-27

:嘗試找到圖片的最大版本,以便查看細節,比如大多數人工智能程序仍然存在手部的問題,你會看到人們有多的手指,或者看起來很奇怪。圖源:AI或者對圖片進行反向搜索,找到它們首先上傳的時間和地點,如果一張完美的