Google宣佈Imagen Video:根據簡短文本內容生成短視頻


繼日前Meta宣佈Make-A-Video之後,Google今天宣佈ImagenVideo人工智能系統,可以根據簡短文本內容(例如泰迪熊洗碗)生成視頻片段。雖然目前生成的短視頻清晰度不夠,但Google聲稱ImagenVideo是朝著具有“高度可控性”和世界知識的系統邁出的一步,包括生成鏡頭的能力在一系列藝術風格中。

事實上通過文本生成短視頻並不是什麼新鮮事情,今年早些時候,清華大學和北京人工智能研究院的一組研究人員發佈 CogVideo,它可以將文本翻譯成相當高保真的短片。但 Imagen Video 似乎是對先前最先進技術的重大飛躍,顯示現有系統難以理解的動畫字幕的能力。

馬修·古茲迪亞(Matthew Guzdial)通過郵件表示:“這顯然是重大改進。正如您從視頻示例中看到的那樣,即使通信團隊選擇最佳輸出,仍然存在奇怪的模糊和人為因素。所以這絕對不會很快直接用於動畫或電視中。但它或類似的東西肯定可以嵌入工具中,以幫助加快某些事情的速度”。

Imagen Video 建立在 Google 的 Imagen 之上,這是一個可與 OpenAI 的 DALL-E 2 和 Stable Diffusion 相媲美的圖像生成系統。 Imagen 是所謂的“擴散”模型,通過學習如何“破壞”和“恢復”許多現有數據樣本來生成新數據(例如視頻)。當它輸入現有樣本時,該模型可以更好地恢復之前破壞的數據以創建新作品。


相關推薦

2022-10-07

容生成AI進入視頻時代!Meta發佈“用嘴做視頻”僅一周,GoogleCEO劈柴哥接連派出兩名選手上場競爭。第一位ImagenVideo與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。另一位選手Phenaki,則能根據200

2022-09-30

idjourney和CrAIyon等AI工具,普通用戶也可以輸入一些簡單的文本內容,經過人工智能加工之後生產媲美藝術傢的藝術插圖。而Meta最新推出的Make-A-Video工具則讓AI藝術生成工具更近一步,隻要一些簡單的文字就可以生成視頻。結果令

2022-10-08

上,Make-A-Video都大幅刷新SOTA。此外,Meta AI的團隊還使用Imagen的DrawBench,進行人為主觀評估。他們邀請測試者親身體驗Make-A-Video,主觀評估視頻與文本之間的邏輯對應關系。結果顯示,Make-A-Video在質量和忠實度上都優於其他兩種

2022-08-01

學習圖像生成擴張圖像等應用。•以往的OpenAI的DALL・E2、Google的Imagen或者Parti等都可以通過文本直接生成圖像,不過解像度隻有1024×1024級別,而“NUWA-Infinity: Autoregressive over Autoregressive Generation for Infinite Visual Synthesis”卻可以生成

2022-08-27

動狗頭)這個神奇的文字-圖像生成模型名叫DreamBooth,是Google的最新研究成果,基於Imagen的基礎上進行調整,一經發佈就在Twitter上引發熱議。有網友調侃:這簡直是最先進的梗圖生成器。目前相關研究論文已上傳至arXiv。幾張照

2023-11-17

本輸入精確修改圖片"。它的視頻演示看起來與 Adobe、Google和 Canva 提供的現有工具類似,為用戶提供一種無需任何專業圖像編輯經驗即可刪除或替換照片中的物體和人物的方法。該工具似乎可以知道要編輯圖片的哪些部分(

2024-03-18

s://huggingface.co/stabilityai/sd-vae-ft-mse-original[6]https://github.com/google-research/text-to-text-transfer-transformer[7]https://github.com/haotian-liu/LLaVA[8]https://hpc-ai.com/blog/open-sora-v1.0

2024-05-07

獲得更多的 AI 功能。最近,Opera 更新 Aria,使其能夠使用Google Imagen2 生成圖像。它還能大聲朗讀文字答案。

2022-11-02

Google在發佈其文本到圖像的人工智能系統方面極為謹慎。盡管該公司的Imagen模型產生的輸出質量與OpenAI的DALL-E2或StabilityAI的StableDiffusion相當,但Google還沒有向公眾提供該系統。不過今天,這傢搜索巨頭宣佈它將把Imagen--以非常有

2024-01-31

Google剛剛推出一款新的生成式人工智能工具Lumiere,它將幫助你通過基於文本的命令創建更逼真的圖像和視頻。Lumiere的一大亮點是,它能夠制作出看起來逼真的動作,而且不會出現不連貫的情況。之所以能做到這一點,是因為該

2022-06-30

上。漫畫書插圖。谷歌“自己卷自己”在這項研究來自 Google Research,團隊中的華人居多。研究核心工作人員包括 Yuanzhong Xu、Thang Luong 等,目前均就職於谷歌從事 AI 相關研究工作。(Thang Luong 在谷歌學術上的引用量高達 20000+)

2024-02-16

還是人類第一次見到ChatGPT的時候。以及,Sora之前幾小時Google剛剛推出它最強的LLMGemini1.5,並試圖宣稱自己終於殺死GPT-4,然而,顯然現在沒人關註。因為看完Sora你可能會發現,OpenAI自己可能要用它先殺死GPT-4。每個人都可以創

2024-02-18

時代?Sora簡直太炸裂”。“這就是電影制作的未來”!Google的Gemini Pro 1.5還沒出幾個小時的風頭,天一亮,全世界的聚光燈就集中在OpenAI的Sora身上。Sora一出,眾視頻模型臣服。就在幾小時後,OpenAI Sora的技術報告也發佈!其中

2024-02-18

時代?Sora簡直太炸裂”。“這就是電影制作的未來”!Google的Gemini Pro 1.5還沒出幾個小時的風頭,天一亮,全世界的聚光燈就集中在OpenAI的Sora身上。Sora一出,眾視頻模型臣服。就在幾小時後,OpenAI Sora的技術報告也發佈!其中