Google宣佈Imagen Video：根據簡短文本內容生成短視頻

2022-10-06 發表於業界精選

繼日前Meta宣佈Make-A-Video之後，Google今天宣佈ImagenVideo人工智能系統，可以根據簡短文本內容（例如泰迪熊洗碗）生成視頻片段。雖然目前生成的短視頻清晰度不夠，但Google聲稱ImagenVideo是朝著具有“高度可控性”和世界知識的系統邁出的一步，包括生成鏡頭的能力在一系列藝術風格中。

事實上通過文本生成短視頻並不是什麼新鮮事情，今年早些時候，清華大學和北京人工智能研究院的一組研究人員發佈 CogVideo，它可以將文本翻譯成相當高保真的短片。但 Imagen Video 似乎是對先前最先進技術的重大飛躍，顯示現有系統難以理解的動畫字幕的能力。

馬修·古茲迪亞（Matthew Guzdial）通過郵件表示：“這顯然是重大改進。正如您從視頻示例中看到的那樣，即使通信團隊選擇最佳輸出，仍然存在奇怪的模糊和人為因素。所以這絕對不會很快直接用於動畫或電視中。但它或類似的東西肯定可以嵌入工具中，以幫助加快某些事情的速度”。

Imagen Video 建立在 Google 的 Imagen 之上，這是一個可與 OpenAI 的 DALL-E 2 和 Stable Diffusion 相媲美的圖像生成系統。 Imagen 是所謂的“擴散”模型，通過學習如何“破壞”和“恢復”許多現有數據樣本來生成新數據（例如視頻）。當它輸入現有樣本時，該模型可以更好地恢復之前破壞的數據以創建新作品。

Google宣佈Imagen Video：根據簡短文本內容生成短視頻

相關推薦

谷歌AI生成視頻兩連發對短視頻行業沖擊太大?

[圖]Meta推出Make-A-Video工具：隻需簡單文本就可創建短視頻

真·拿嘴做視頻：Meta“AI導演”一句話搞定視頻素材

微軟北大聯合團隊開發AI新應用無限視覺生成技術

谷歌用新AI超越自己：讓Imagen能夠指定生成對象風格隨意轉換

Meta預告：Facebook和Instagram將提供新型人工智能編輯工具

Opera的Aria人工智能助手現在可以在Android上總結網頁內容

全球首個類Sora開源復現方案來全面公開所有訓練細節和模型權重

Google的文本到圖像的人工智能模型Imagen有限公開亮相

Google推出Lumiere生成式AI 可基於文本提示創建逼真的圖像和視頻

谷歌新AI火瞭：世界最長單詞都能畫：Pneumonoultramicroscopicsilicovolcanoconiosis

OpenAI Sora問世通往AGI的又一個ChatGPT時刻

解密OpenAI超級視頻模型Sora技術報告虛擬世界湧現

解密OpenAI超級視頻模型Sora技術報告虛擬世界湧現