文字到圖像的生成是目前熱門的算法過程,OpenAI的Craiyon(以前的DALL-Emini)和Google的ImagenAI釋放出由人類和計算機想象力合成的奇妙怪異的程序生成藝術的浪潮。本周二,Meta透露,它也開發一個AI圖像生成引擎,它希望這將有助於在Metaverse中建立沉浸式的世界並創造出高級數字藝術。
在使用AI生成引擎時,僅憑“醫院裡有一匹馬”這句話就創造出一個圖像需要大量的工作。首先,這句話本身被送入一個轉化器模型,這是一個神經網絡,它可以解析句子中的單詞並對它們之間的關系形成上下文理解。一旦得到用戶描述的要點,AI將使用一組GAN(生成對抗網絡)合成一個新的圖像。
由於近年來努力在日益擴大的高清晰度圖像集上訓練ML模型並對文本描述進行精心策劃,今天最先進的AI可以創造出逼真的圖像--無論你給它們提供什麼胡言亂語。不同的AI的具體創造過程是不同的。
比如Google的Imagen使用擴散模型,它學會將隨機點的模式轉換為圖像。這些圖像首先從低分辨率開始,然後逐步提高分辨率。"另一方面,Google的Parti AI,首先將一組圖像轉換為一連串的代碼條目,類似於拼圖片;然後將一個給定的文本提示翻譯成這些代碼條目並創建一個新的圖像。
雖然這些系統可以創建向其描述的大多數東西,但用戶對輸出圖像的具體方面沒有任何控制。“為實現AI推動創造性表達的潛力,”Meta CEO馬克·紮克伯格在周二的博客中表示,“人們應該能塑造和控制系統生成的內容。”
該公司的“探索性AI研究概念”被稱為Make-A-Scene,通過將用戶創建的草圖納入其基於文本的圖像生成輸出一個2,048 x 2,048像素的圖像。這種組合使用戶不僅可以描述他們在圖像中想要的東西,而且還可以決定圖像的整體構成。紮克伯格表示:“它展示人們如何使用文字和簡單的圖畫來更具體地傳達他們的願景,並使用各種元素、形式、安排、深度、構圖和結構。”
在測試中,一個人類評估小組壓倒性地選擇文字加圖畫的圖像,而不是僅有文字的圖像,因為與原始草圖更好地保持一致(99.54%的時間),與原始文字描述更好地保持一致的時間為66%。為進一步發展這項技術,Meta跟包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol在內的著名AI藝術傢分享其Make-A-Scene演示,他們將使用該系統並提供反饋。目前還沒有關於該AI何時向公眾開放的消息。