隨著DALL-E的問世,互聯網迎來一個集體感覺良好的時刻。這個基於人工智能的圖像生成器的靈感來自於藝術傢薩爾瓦多-DALL-E和動畫電影中可愛的機器人瓦力,它使用自然語言來生成你心中想要的任何神秘而美麗的圖像。看到打出的輸入信息,如"拿著冰激凌甜筒的微笑地鼠",機器的靈感瞬間湧現出來,這種生動的人工智能生成的圖像顯然得到世界的共鳴。
DALL-E 2使用一種叫做擴散模型的概念,它試圖將整個文本編碼為一個描述來生成一個圖像。然而,一旦文本有更多的細節,單一的描述就很難捕捉到它的全部。此外,雖然它們高度靈活,但擴散模型有時很難理解某些概念的構成,例如混淆不同對象之間的屬性或關系。
這個生成的圖像陣列,顯示"橋上的火車"和"橋下的河流",是使用麻省理工學院研究人員開發的新方法生成的。
為生成具有更好理解力的更復雜的圖像,來自麻省理工學院計算機科學和人工智能實驗室(CSAIL)的科學傢們從不同的角度對典型的模型進行結構化設計:他們將一系列的模型加在一起,按照輸入文本或標簽的要求,合作生成捕捉多個不同方面的理想圖像。要創建一個有兩個組成部分的圖像,比如說,由兩句描述組成的圖像,每個模型將處理圖像的一個特定組成部分。
圖像生成背後看似神奇的模型通過建議一系列的迭代完善步驟來達到所需的圖像。它從一張"糟糕"的圖片開始,然後逐漸細化,直到成為選定的圖像。通過將多個模型組合在一起,它們在每個步驟中共同完善外觀,所以結果是一個展現每個模型所有屬性的圖像。通過讓多個模型合作,你可以在生成的圖像中得到更多的創造性組合。
這個生成的圖像陣列,顯示"一條通向山脈的河流"和"邊上的紅樹"
以一輛紅色卡車和一座綠色房子為例。當這些句子變得非常復雜時,模型會混淆紅色卡車和綠色房子的概念。像《DALL-E 2》這樣的典型生成器可能會把這些顏色調換一下,做成綠色卡車和紅色房子。該團隊的方法可以處理這種類型的屬性與物體的綁定,特別是當有多組東西時,它可以更準確地處理每個物體。
"該模型可以有效地對物體位置和關系描述進行建模,這對現有的圖像生成模型來說是一個挑戰。例如,把一個物體和一個立方體放在某個位置,把一個球體放在另一個位置。DALL-E 2善於生成自然圖像,但有時難以理解物體關系,"麻省理工學院CSAIL博士生和共同主要作者Li Shuang說。"除藝術和創意,也許我們可以把我們的模型用於教學。如果你想告訴孩子把一個立方體放在一個球體的上面,如果我們用語言這麼說,他們可能很難理解。但我們的模型可以生成圖像並向他們展示。"
讓DALL-E感到自豪
可組合擴散--該團隊的模型--將擴散模型與組合運算符一起使用,無需進一步的訓練就能組合出文字描述。該團隊的方法比原始擴散模型更準確地捕捉文本細節,後者直接將文字編碼為一個長句。例如,給定"粉紅色的天空"和"地平線上的一座藍色的山"和"山前的櫻花",該團隊的模型能夠準確地生成該圖像,而原始的擴散模型使天空變成藍色,山前的一切變成粉紅色。
研究人員能夠用"一隻狗"和"天空"的文字創造出一些令人驚訝的、超現實的圖像。左邊出現的是一隻狗和雲,下面標有"狗"和"天空",右邊出現的是兩張像雲一樣的狗的圖像,下面標有"狗和天空"。
"我們的模型是可組合的,這意味著你可以學習模型的不同部分,一次一個。你可以先學習另一個物體上面的一個物體,然後學習另一個物體右邊的一個物體,再學習另一個物體左邊的東西,"共同主要作者、麻省理工學院CSAIL博士生Du Yilun說。"由於我們可以將這些東西組合在一起,你可以想象我們的系統使我們能夠逐步學習語言、關系或知識,我們認為這是未來工作的一個相當有趣的方向。"
雖然這種方法在生成復雜、逼真的圖像方面表現出優勢,但它仍然面臨著挑戰,因為該模型是在比《DALL-E 2》這樣的數據集小得多的基礎上訓練的。
現在,可壓縮擴散可以在生成模型的基礎上工作,如DALL-E 2,研究人員準備探索持續學習作為潛在的下一步。鑒於通常會有更多的東西被添加到物體關系中,他們想看看擴散模型是否可以開始"學習",而不會忘記以前學過的知識--達到模型可以用以前和新的知識生成圖像的程度。
這幅照片插圖是用麻省理工學院的一個名為"可組合擴散"的系統生成的圖像制作的,並在Photoshop中排列。像"擴散模型"和"網絡"這樣的短語被用來生成粉紅色的點和幾何角度的圖像。短語"一匹馬和一片黃花地"被包含在圖像的頂部。左邊是生成的馬和黃土地的圖像,右邊是黃花地裡的馬的組合圖像。資料來源:Jose-Luis Olivares, MIT和研究人員
"這項研究提出一種在文本-圖像生成中合成概念的新方法,不是通過串聯它們來形成提示,而是通過計算與每個概念有關的分數,並使用連接和否定運算符來合成它們,"Mark Chen說。他是DALL-E 2的共同創造者,也是OpenAI的研究科學傢。"這是一個很好的想法,它利用擴散模型的基於能量的解釋,因此,圍繞著使用基於能量的模型的組合性的舊想法可以被應用。該方法還能夠利用無分類器的指導,令人驚訝的是,它在各種構成性基準上的表現優於GLIDE基線,並能在質量上產生非常不同的圖像生成類型。"
"人類可以以無數種方式組成包括不同元素的場景,但這項任務對計算機來說是具有挑戰性的,"Adobe Systems的研究科學傢Bryan Russel說。"這項工作提出一個優雅的表述,它明確地組成一組擴散模型,以生成一個給定的復雜自然語言提示的圖像。"