麻省理工學院AI圖像生成系統讓《DALL-E 2》等模型散發出創意


隨著DALL-E的問世,互聯網迎來一個集體感覺良好的時刻。這個基於人工智能的圖像生成器的靈感來自於藝術傢薩爾瓦多-DALL-E和動畫電影中可愛的機器人瓦力,它使用自然語言來生成你心中想要的任何神秘而美麗的圖像。看到打出的輸入信息,如"拿著冰激凌甜筒的微笑地鼠",機器的靈感瞬間湧現出來,這種生動的人工智能生成的圖像顯然得到世界的共鳴。

DALL-E-2-Astronaut-Image.jpg

DALL-E 2使用一種叫做擴散模型的概念,它試圖將整個文本編碼為一個描述來生成一個圖像。然而,一旦文本有更多的細節,單一的描述就很難捕捉到它的全部。此外,雖然它們高度靈活,但擴散模型有時很難理解某些概念的構成,例如混淆不同對象之間的屬性或關系。

Train-on-a-Bridge-Generated-Images.jpg

這個生成的圖像陣列,顯示"橋上的火車"和"橋下的河流",是使用麻省理工學院研究人員開發的新方法生成的。

為生成具有更好理解力的更復雜的圖像,來自麻省理工學院計算機科學和人工智能實驗室(CSAIL)的科學傢們從不同的角度對典型的模型進行結構化設計:他們將一系列的模型加在一起,按照輸入文本或標簽的要求,合作生成捕捉多個不同方面的理想圖像。要創建一個有兩個組成部分的圖像,比如說,由兩句描述組成的圖像,每個模型將處理圖像的一個特定組成部分。

圖像生成背後看似神奇的模型通過建議一系列的迭代完善步驟來達到所需的圖像。它從一張"糟糕"的圖片開始,然後逐漸細化,直到成為選定的圖像。通過將多個模型組合在一起,它們在每個步驟中共同完善外觀,所以結果是一個展現每個模型所有屬性的圖像。通過讓多個模型合作,你可以在生成的圖像中得到更多的創造性組合。

River-Leading-Into-Mountains-Generated-Images.jpg

這個生成的圖像陣列,顯示"一條通向山脈的河流"和"邊上的紅樹"

以一輛紅色卡車和一座綠色房子為例。當這些句子變得非常復雜時,模型會混淆紅色卡車和綠色房子的概念。像《DALL-E 2》這樣的典型生成器可能會把這些顏色調換一下,做成綠色卡車和紅色房子。該團隊的方法可以處理這種類型的屬性與物體的綁定,特別是當有多組東西時,它可以更準確地處理每個物體。

"該模型可以有效地對物體位置和關系描述進行建模,這對現有的圖像生成模型來說是一個挑戰。例如,把一個物體和一個立方體放在某個位置,把一個球體放在另一個位置。DALL-E 2善於生成自然圖像,但有時難以理解物體關系,"麻省理工學院CSAIL博士生和共同主要作者Li Shuang說。"除藝術和創意,也許我們可以把我們的模型用於教學。如果你想告訴孩子把一個立方體放在一個球體的上面,如果我們用語言這麼說,他們可能很難理解。但我們的模型可以生成圖像並向他們展示。"

讓DALL-E感到自豪

可組合擴散--該團隊的模型--將擴散模型與組合運算符一起使用,無需進一步的訓練就能組合出文字描述。該團隊的方法比原始擴散模型更準確地捕捉文本細節,後者直接將文字編碼為一個長句。例如,給定"粉紅色的天空"和"地平線上的一座藍色的山"和"山前的櫻花",該團隊的模型能夠準確地生成該圖像,而原始的擴散模型使天空變成藍色,山前的一切變成粉紅色。

AI-Generated-Images-Dog-Sky.jpg

研究人員能夠用"一隻狗"和"天空"的文字創造出一些令人驚訝的、超現實的圖像。左邊出現的是一隻狗和雲,下面標有"狗"和"天空",右邊出現的是兩張像雲一樣的狗的圖像,下面標有"狗和天空"。

"我們的模型是可組合的,這意味著你可以學習模型的不同部分,一次一個。你可以先學習另一個物體上面的一個物體,然後學習另一個物體右邊的一個物體,再學習另一個物體左邊的東西,"共同主要作者、麻省理工學院CSAIL博士生Du Yilun說。"由於我們可以將這些東西組合在一起,你可以想象我們的系統使我們能夠逐步學習語言、關系或知識,我們認為這是未來工作的一個相當有趣的方向。"

雖然這種方法在生成復雜、逼真的圖像方面表現出優勢,但它仍然面臨著挑戰,因為該模型是在比《DALL-E 2》這樣的數據集小得多的基礎上訓練的。

現在,可壓縮擴散可以在生成模型的基礎上工作,如DALL-E 2,研究人員準備探索持續學習作為潛在的下一步。鑒於通常會有更多的東西被添加到物體關系中,他們想看看擴散模型是否可以開始"學習",而不會忘記以前學過的知識--達到模型可以用以前和新的知識生成圖像的程度。

MIT-Composable-Diffusion-Generated-Images.jpg

這幅照片插圖是用麻省理工學院的一個名為"可組合擴散"的系統生成的圖像制作的,並在Photoshop中排列。像"擴散模型"和"網絡"這樣的短語被用來生成粉紅色的點和幾何角度的圖像。短語"一匹馬和一片黃花地"被包含在圖像的頂部。左邊是生成的馬和黃土地的圖像,右邊是黃花地裡的馬的組合圖像。資料來源:Jose-Luis Olivares, MIT和研究人員

"這項研究提出一種在文本-圖像生成中合成概念的新方法,不是通過串聯它們來形成提示,而是通過計算與每個概念有關的分數,並使用連接和否定運算符來合成它們,"Mark Chen說。他是DALL-E 2的共同創造者,也是OpenAI的研究科學傢。"這是一個很好的想法,它利用擴散模型的基於能量的解釋,因此,圍繞著使用基於能量的模型的組合性的舊想法可以被應用。該方法還能夠利用無分類器的指導,令人驚訝的是,它在各種構成性基準上的表現優於GLIDE基線,並能在質量上產生非常不同的圖像生成類型。"

"人類可以以無數種方式組成包括不同元素的場景,但這項任務對計算機來說是具有挑戰性的,"Adobe Systems的研究科學傢Bryan Russel說。"這項工作提出一個優雅的表述,它明確地組成一組擴散模型,以生成一個給定的復雜自然語言提示的圖像。"


相關推薦

2024-03-27

智能服務可以生成高質量的視覺拼湊,但通常相當緩慢。麻省理工學院和Adobe公司的研究人員針對這一耗時問題開發出一種潛在的解決方案,即一種對圖像質量影響最小的全新超快速圖像生成方法。該技術每秒可生成約20幅圖像

2022-09-20

自從DALL-E2問世以來,很多人都認為,能夠繪制逼真圖像的AI是邁向通用人工智能(AGI)的一大步。OpenAI的CEO SamAltman曾在DALL-E2發佈的時候宣稱“AGIisgoingtobewild”,媒體也都在渲染這些系統對於通用智能進展的重大意義。

2023-03-22

ingImageCreator,這是一項由OpenAI的DALL-E深度學習模型驅動的圖像生成技術。DALL-E旨在通過自然語言描述生成數字內容,一段時間以來,它一直是流行的圖像生成工具。微軟表示,Bing Image Creator將為Bing和具有相同AI能力的Microsoft Edge

2023-01-26

計劃:這傢圖片攝影巨頭剛剛為付費客戶開放其人工智能圖像生成平臺,承諾以一種新穎的方式創造可用於專業項目的藝術作品,但也對原創作者負責。作為Creative Flow平臺的一部分,Shutterstock AI現在已進入測試階段,它是與OpenA

2022-09-01

染抱石墻”或“蒸汽朋克風格的大象”等1024×1024像素的圖像。最新消息是,在4月首次亮相之後,現DALL-E已能夠繪制更宏大的圖像、以及更具創意的內容。資料圖(來自:OpenAI)周三的時候,該公司添加一項名叫“outpainting”的

2023-03-23

同地發佈或開放生成式AI新技術,其中微軟和Adobe發佈與圖像生成相關的新應用。然而,AI不僅可以幫助人類,也會被利用來戲弄人類。例如,近日互聯網上流傳著美國前總統特朗普被捕的照片,實際上這些照片都是由人工智能生

2023-03-16

從非營利性研究實驗室全面轉變為營利性科技公司。”《麻省理工科技評論》的文章稱。OpenAI的首席科學傢伊利亞·蘇茨克沃(Ilya Sutskever)在公告發佈一個小時後通過視頻通話與GPT-4團隊成員交談時說:“你知道,我們目前無法

2022-07-23

本周,OpenAI授予其圖像生成人工智能系統DALL-E2用戶在商業項目中使用其世代的權利,如兒童書籍插圖和新聞簡報藝術。考慮到OpenAI自己的商業目的,此舉是有意義的,其政策改變與該公司為DALL-E2推出的付費計劃相吻合。DALL-E 2

2023-02-13

,這將大大削弱 Stable Diffusion 等工具的可行性,”哈佛法學院法律講師、哈佛大學伯克曼克萊恩互聯網及社會研究中心(Berkman Klein Center for Internet & Society)的網絡法律診所副主任傑西卡·費約德(Jessica Fjeld)表示,“另一方

2023-12-05

次,隻需幾周就能超過與其訓練相關的二氧化碳排放量。麻省理工學院林肯實驗室的研究科學傢維賈伊-加德帕利(Vijay Gadepally)說,從人工智能模型中獲利的公司必須對溫室氣體排放負責。

2022-08-15

文本-圖像人工智能系統目前在能力和受歡迎程度上都在蓬勃發展,還有什麼比它們出現在世界最熱門的應用程序中更好的證明?那就是TikTok。這個視頻平臺最近增加一種新的效果,它稱之為"人工智能綠屏",

2023-11-11

大型重建模型(LRM),他們認為該模型能夠通過單張二維圖像預測三維模型的形狀,而且隻需 5 秒鐘即可完成。研究人員在論文中解釋說,以前的三維生成模型是在專註於單一圖像類別的小規模數據集上進行訓練的。相反,他們

2022-06-30

試牛刀的能力,據谷歌介紹,它是目前最先進的“文本轉圖像”AI。例如,跟它說句:“把悉尼歌劇院和巴黎鐵塔做個結合”,輸出結果是這樣的:(不知道的還真以為是畫報呢)而且在算法路數上,還不同於谷歌自傢的 Imagen,

2023-03-03

能研究所的博士生,導師是Dan Klein和Anca Dragan。她畢業於麻省理工學院,主修計算機科學和哲學。在此之前,她在Lilt公司從事研究和產品工作,在人機翻譯的背景下探索這些問題。她的研究重點是構建使用語言與人協作並從人類