微軟推出新型AI工具VASA-1:可將照片轉化為視頻


快科技4月21日消息,據媒體報道,微軟亞洲研究院近期推出一款革命性的人工智能工具VASA-1,這一工具的推出引起業界和公眾的廣泛關註。

VASA-1的獨特之處在於,它能夠將靜態圖像或繪畫與音頻文件結合,生成具有動態面部表情和頭部動作的面孔。這意味著,僅憑一張圖片和一段聲音,就能創造出一個仿佛真實存在的人物的形象,其嘴唇動作甚至能與語音或歌曲完美匹配。

VASA-1的能力令人驚嘆,它為我們打開一個全新的視覺體驗世界。想象一下,在教育領域中,通過這一技術,我們可以為學生創建更加生動、立體的學習材料,從而大大提高教學效果

在溝通方面,對於那些因各種原因無法直接交流的人,VASA-1可能成為他們表達情感和思想的新方式;甚至,它還可以為需要陪伴或治療支持的人提供虛擬的夥伴,帶來心靈上的慰藉。

然而,正如一枚硬幣有兩面,VASA-1的強大能力也帶來潛在的風險。最顯著的風險在於,這項技術可能被濫用於創建深度偽造視頻。這些視頻可以逼真地模仿真實人物,讓人難以分辨真偽。

如果不良行為者利用VASA-1制作惡意內容或進行錯誤信息活動,將對社會造成極大的危害。

微軟亞洲研究院顯然已經意識到這一風險,因此在發佈VASA-1之前,他們決定采取謹慎的態度。

目前,他們並未公開任何在線演示、API、產品或相關實施細節,以確保技術不會被濫用。同時,他們也在積極研究如何防止不良行為者利用VASA-1進行不正當活動。

值得一提的是,VASA-1的訓練數據集是VoxCeleb2,這是一個包含超過100萬條名人話語的大型數據集。

這表明VASA-1在處理真實人物的面孔時具有相當高的準確性。但令人驚訝的是,這一工具不僅適用於真實面孔的訓練,還可以應用於藝術照片,如《蒙娜麗莎》等。


相關推薦

2024-03-08

前,視頻正成為人們關註的焦點,尤其是 OpenAI 在上個月推出 Sora,它可以制作逼真的 60 秒 1080p 短片。不出所料,人工智能生成的視頻並不完美,但它代表該技術的重大飛躍。

2024-04-19

微軟公司的一篇新的人工智能研究論文展望未來:上傳一張照片和你的聲音樣本,然後創建一個活靈活現的會說話的人頭像。這種名叫VASA-1的人工智能模型可接收單張人像照片和音頻文件,並將其轉換成超逼真的人臉視頻,包括

2024-07-15

院和康奈爾大學的科學傢團隊設計出一款具有創新意義的新型宇航服。這款創新宇航服的核心亮點在於其內置的尿液回收與凈化系統,能夠高效地將宇航員在太空中產生的尿液轉化為清澈可飲用的純凈水,極大地延長宇航員在太

2024-08-19

間首批網紅之一的程琳,今日分享一批她16年前的非主流照片。這些照片經過AI技術處理後轉化為視頻,其中她的一顰一笑、發絲輕飄以及經典的剪刀手姿勢等細節,都生動地呈現出來,宛如將時光倒流回2008年。程琳回憶道:在

2024-11-05

微信電商的整體戰略邏輯”。顯而易見,隨著微信小店的推出,騰訊的長遠目標是構建一個以其為中心,通過整合微信全域內多種觸點、獨有的微信電商生態圈。這標志著從視頻號電商到微信電商的蛻變。過去,我們從未在公眾

2023-02-15

聲譽風險’隻能暫且忽略,當初何必如此謹慎,被OpenAI和微軟搶先呢?Google真是一步錯步步錯啊。搞出Transformer,給他人做嫁衣Google新老員工都在吐槽,公司對員工的科技創新轉化實在是太緩慢。但Google之所以如此謹慎,是有前

2024-05-14

視頻來自官方,翻譯:小互OpenAI和Be My Eyes合作推出一款新的APP,旨在幫助視力受限人群實時解身邊場景並提供幫助。這款APP利用最新的GPT-4o模型,結合實時視覺和語音能力。通過這款APP,盲人可以隨時解自己周圍的環境,並

2023-12-27

種便攜式、非侵入性的人工智能讀心”頭戴設備BrainGPT,可將思想轉化成文本。據解,BrainGPT把腦電波信號分割成不同的單元,從中捕獲特定的特征和模式。模型通過從大量腦電數據中學習,獲得將腦電圖信號轉換為單詞和句子

2024-02-18

,他采用與OpenAI示例中相同的Prompt。結果顯示,其他主流工具生成的視頻都大約隻有5秒鐘,而SORA可以在一段長達17秒視頻場景中,保持動作和畫面一致性。隨後,他將SORA的起始畫面用作參照,努力通過調整命令提示和控制相機

2024-02-18

,他采用與OpenAI示例中相同的Prompt。結果顯示,其他主流工具生成的視頻都大約隻有5秒鐘,而SORA可以在一段長達17秒視頻場景中,保持動作和畫面一致性。隨後,他將SORA的起始畫面用作參照,努力通過調整命令提示和控制相機

2024-02-17

,他采用與OpenAI示例中相同的Prompt。結果顯示,其他主流工具生成的視頻都大約隻有5秒鐘,而SORA可以在一段長達17秒視頻場景中,保持動作和畫面一致性。隨後,他將SORA的起始畫面用作參照,努力通過調整命令提示和控制相機

2024-02-17

,他采用與OpenAI示例中相同的Prompt。結果顯示,其他主流工具生成的視頻都大約隻有5秒鐘,而SORA可以在一段長達17秒視頻場景中,保持動作和畫面一致性。隨後,他將SORA的起始畫面用作參照,努力通過調整命令提示和控制相機

2023-04-27

,Meta轉而采購數十億美元的英偉達GPU,但這時候已經被微軟和谷歌等巨頭甩開。目前,Meta計劃開發一款新型芯片,能像GPU一樣訓練AI模型並執行推理,計劃在2025年左右完成。此外,相關負責人還表示,Meta在AI開發的工具和流程

2023-12-07

Meta、OpenAI和微軟在AMD的一次會議上說,他們將使用AMD最新的AI芯片InstinctMI300X。這是迄今為止科技公司正在尋找昂貴的英偉達圖形處理器替代品的最大跡象,英偉達圖形處理器對於創建和部署像OpenAI的ChatGPT這樣的人工智能程序至