Meta Make-A-Scene AI:能將人類與計算機的想象力融合為算法藝術


文字到圖像的生成是目前熱門的算法過程,OpenAI的Craiyon(以前的DALL-Emini)和Google的ImagenAI釋放出由人類和計算機想象力合成的奇妙怪異的程序生成藝術的浪潮。本周二,Meta透露,它也開發一個AI圖像生成引擎,它希望這將有助於在Metaverse中建立沉浸式的世界並創造出高級數字藝術。

在使用AI生成引擎時,僅憑“醫院裡有一匹馬”這句話就創造出一個圖像需要大量的工作。首先,這句話本身被送入一個轉化器模型,這是一個神經網絡,它可以解析句子中的單詞並對它們之間的關系形成上下文理解。一旦得到用戶描述的要點,AI將使用一組GAN(生成對抗網絡)合成一個新的圖像。

由於近年來努力在日益擴大的高清晰度圖像集上訓練ML模型並對文本描述進行精心策劃,今天最先進的AI可以創造出逼真的圖像--無論你給它們提供什麼胡言亂語。不同的AI的具體創造過程是不同的。

比如Google的Imagen使用擴散模型,它學會將隨機點的模式轉換為圖像。這些圖像首先從低分辨率開始,然後逐步提高分辨率。"另一方面,Google的Parti AI,首先將一組圖像轉換為一連串的代碼條目,類似於拼圖片;然後將一個給定的文本提示翻譯成這些代碼條目並創建一個新的圖像。

雖然這些系統可以創建向其描述的大多數東西,但用戶對輸出圖像的具體方面沒有任何控制。“為實現AI推動創造性表達的潛力,”Meta CEO馬克·紮克伯格在周二的博客中表示,“人們應該能塑造和控制系統生成的內容。”

該公司的“探索性AI研究概念”被稱為Make-A-Scene,通過將用戶創建的草圖納入其基於文本的圖像生成輸出一個2,048 x 2,048像素的圖像。這種組合使用戶不僅可以描述他們在圖像中想要的東西,而且還可以決定圖像的整體構成。紮克伯格表示:“它展示人們如何使用文字和簡單的圖畫來更具體地傳達他們的願景,並使用各種元素、形式、安排、深度、構圖和結構。”

在測試中,一個人類評估小組壓倒性地選擇文字加圖畫的圖像,而不是僅有文字的圖像,因為與原始草圖更好地保持一致(99.54%的時間),與原始文字描述更好地保持一致的時間為66%。為進一步發展這項技術,Meta跟包括Sofia Crespo、Scott Eaton、Alexander Reben和Refik Anadol在內的著名AI藝術傢分享其Make-A-Scene演示,他們將使用該系統並提供反饋。目前還沒有關於該AI何時向公眾開放的消息。


相關推薦

2023-11-11

中已經存在的屏幕,移動到離眼睛僅有毫米距離的地方,將人與世界之間增加更多隔閡。「未來不在你的臉上。」Humane 借鑒蘋果的公司文化,發表關於構建「人類與計算機之間的下一個轉變」的宏大聲明,以及將人工智能融入

2023-10-31

ink公司最終目標就是實現人類與人工智能的共生,還提出將人類大腦上傳到雲端的超前概念。然而,無論是OpenAI還是Neuralink都還有很長的路要走。OpenAI的ChatGPT目前還未解決幻覺問題,Neuralink則在大腦植入的活體實驗中飽受攻訐

2022-10-24

阿爾茨海默氏癥、癡呆癥和脊髓損傷等神經系統疾病,並將人類與人工智能(AI)融合在一起。馬斯克在2019年的演示中表示,Neuralink的目標是在2020年底之前獲得監管機構批準,進行芯片植入人腦實驗。不過迄今為止,該公司尚

2023-02-08

們現在建議,在受控的十字路口多設一個白燈,可以幫助將人類司機納入其中。這就是"白色階段"的意義所在。他們的想法是,當成群的自動駕駛汽車接近一個十字路口時,它們將相互溝通,並與在該十字路口運行燈光的

2023-02-11

革命。對於基於機器學習的人工智能在未來可能接管所有人類工作的前景,大部分人在不久前還對此一無所知。機器學習是一項涉及計算機從大量數據中學習的底層技術,已被廣泛應用於許多過去隻能由人類完成的工作中,比如

2023-02-21

普斯研究所主任Eric Topol表示,他希望將來整合LLM功能的AI能將全身掃描與學術文獻中的內容進行交叉驗證,幫助診斷癌癥,甚至理解癌癥。但他強調,這一切都需要專業人士的監督。生成式AI背後的計算機科學發展迅速,基本每

2023-12-04

習先驅、圖靈獎得主楊立昆(YannLeCun)表示,他認為如果人類想要訓練出一種不僅僅具備總結文本能力、而且具備某種意義上類人的感知能力和常識的人工智能系統,還需要幾十年的時間。他的觀點與英偉達CEO黃仁勛上周的觀點

2023-11-24

會發出一封信,警告一項強大的AI發現(Q*)可能威脅全人類。此外,OpenAICTOMiraMurati此前在致員工的內部信件中提到一個代號為“Q*”的項目。據她稱,該項目為“董事會對奧特曼的一系列不滿中的因據多傢媒體猜測,Q*讓OpenAI實

2022-08-30

示操作員面部表情的顯示器。在遠程操控過程中,機器人能將操作員的面部表情和聲音實時同步到現場,這一過程借由 VR 頭戴設備內的多顆攝像頭和眼球追蹤技術得以實現,而其頭部和手部動作則會被捕捉並傳輸給機器人,操

2023-03-07

黑白的“圖像拼接”風格LOGO設計(圖CE)。然而,與下面人類手工設計的LOGO比起來,上面AI設計的效果不能說不好看,但似乎還差那麼點意思:作者們經過一通探查,發現人類手工設計的LOGO並不“喧賓奪主”。人類設計師會在

2022-06-30

rld Model就是一個智能體模型。它包括一個視覺感知組件,能將看到的圖像壓縮成一個低維的表征向量作為模型輸入。同時還有一個記憶組件,可以基於歷史信息,對未來的表征向量做出預測。最後,還包括一個決策組件,它能基

2023-03-01

型視為引擎,最終將以一種熟悉、自然和直觀的方式推動人類與計算機系統的交互,並看到企業對‘將對話式人工智能集成到現有生態系統中’的強烈興趣,”報告寫道。投資者正在利用這股熱潮,某些整合或使用人工智能的公

2024-03-19

teraflops。2017年, Transformer到來。2022年,ChatGPT捕獲世界的想象力。人們意識到人工智能的重要性和能力。2023年,生成式AI浮現,新的行業開始形成。為什麼是一個新行業?因為這樣的軟件以前從未存在過。我們現在正在使用計算

2022-10-03

。3:想知道人和機器人之間是否會有幹預措施,比如在人類不同意正在發生的事情時就行標記?A:如果機器人做壞事,我們會在遠程監控機器人。馬斯克補充:我們希望我們的機器人變得比科幻片裡更像人,隨著AI 發展,我們