Meta Make-A-Scene AI：能將人類與計算機的想象力融合為算法藝術

2022-07-15 發表於業界精選

文字到圖像的生成是目前熱門的算法過程，OpenAI的Craiyon（以前的DALL-Emini）和Google的ImagenAI釋放出由人類和計算機想象力合成的奇妙怪異的程序生成藝術的浪潮。本周二，Meta透露，它也開發一個AI圖像生成引擎，它希望這將有助於在Metaverse中建立沉浸式的世界並創造出高級數字藝術。

在使用AI生成引擎時，僅憑“醫院裡有一匹馬”這句話就創造出一個圖像需要大量的工作。首先，這句話本身被送入一個轉化器模型，這是一個神經網絡，它可以解析句子中的單詞並對它們之間的關系形成上下文理解。一旦得到用戶描述的要點，AI將使用一組GAN（生成對抗網絡）合成一個新的圖像。

由於近年來努力在日益擴大的高清晰度圖像集上訓練ML模型並對文本描述進行精心策劃，今天最先進的AI可以創造出逼真的圖像--無論你給它們提供什麼胡言亂語。不同的AI的具體創造過程是不同的。

比如Google的Imagen使用擴散模型，它學會將隨機點的模式轉換為圖像。這些圖像首先從低分辨率開始，然後逐步提高分辨率。"另一方面，Google的Parti AI，首先將一組圖像轉換為一連串的代碼條目，類似於拼圖片；然後將一個給定的文本提示翻譯成這些代碼條目並創建一個新的圖像。

雖然這些系統可以創建向其描述的大多數東西，但用戶對輸出圖像的具體方面沒有任何控制。“為實現AI推動創造性表達的潛力，”Meta CEO馬克·紮克伯格在周二的博客中表示，“人們應該能塑造和控制系統生成的內容。”

該公司的“探索性AI研究概念”被稱為Make-A-Scene，通過將用戶創建的草圖納入其基於文本的圖像生成輸出一個2,048 x 2,048像素的圖像。這種組合使用戶不僅可以描述他們在圖像中想要的東西，而且還可以決定圖像的整體構成。紮克伯格表示：“它展示人們如何使用文字和簡單的圖畫來更具體地傳達他們的願景，並使用各種元素、形式、安排、深度、構圖和結構。”

在測試中，一個人類評估小組壓倒性地選擇文字加圖畫的圖像，而不是僅有文字的圖像，因為與原始草圖更好地保持一致（99.54%的時間），與原始文字描述更好地保持一致的時間為66%。為進一步發展這項技術，Meta跟包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol在內的著名AI藝術傢分享其Make-A-Scene演示，他們將使用該系統並提供反饋。目前還沒有關於該AI何時向公眾開放的消息。

Meta Make-A-Scene AI：能將人類與計算機的想象力融合為算法藝術

相關推薦

他們想把 ChatGPT做成下一代 iPhone

OpenAI首席科學傢大膽設想：人類未來將難免與AI融合

馬斯克：Neuralink腦機接口技術演示活動推遲至11月末

增加“白色交通燈”可能有助於人類與無人駕駛汽車協作提高交通效率

ChatGPT爆火之下生成式人工智能的“遠憂近慮”

《自然》長文：ChatGPT闖入科研革新與隱患共存

叫板黃仁勛？Meta首席AI科學傢：超級人工智能不會很快到來

內部人擔憂“威脅人類生存” OpenAI的神秘重大突破“Q*算法”究竟是什麼？

人類，離“阿凡達”還有多遠？

AI免費設計Logo效果驚艷雷軍200萬花早

新出生的機器狗，打滾1小時後自己掌握走路，吳恩達開山大弟子最新成果

ChatGPT引爆AI市場熱度瑞銀：到2025年規模料達900億美元

黃仁勛GTC演講全文：最強AI芯片Blackwell問世推理能力提升30倍

特斯拉2022 AI Day會議紀要：Optimus後續的生產規模可能會達到數百萬臺