NVIDIA實現從圖像中抽象出概念再生成新的圖像人類幼崽技能AI終於學會

2022-08-14 來自量子位發表於業界精選

人類幼崽2歲就能做的事，AI竟然才學會？早在2017年，就有網友吐槽：2歲幼童隻要見過一次犀牛的照片，就能在其他圖片裡認出不同姿勢、視角和風格的卡通犀牛，但AI卻做不到。

直到現在，這一點終於被科學傢攻克！

最新研究發現，隻要給AI喂3-5張圖片，AI就能抽象出圖片裡的物體或風格，再隨機生成個性化的新圖片。

有網友評價：非常酷，這可能是我這幾個月來看到的最好的項目。

它是如何工作的？

讓我們先來看幾個例子。

當你上傳3張不同角度的陶瓷貓照片，可能會得到以下4張新圖像：兩隻在船上釣魚的陶瓷貓、陶瓷貓書包、班克斯藝術風格的貓以及陶瓷貓主題的午餐盒。

同樣的例子還有藝術品：

鎧甲小人：

碗：

不隻是提取圖像中的物體，AI還能生成特定風格的新圖像。

例如下圖，AI提取輸入圖像的繪畫風格，生成一系列該風格的新畫作。

更神奇的是，它還能將兩組輸入圖像相結合，提取一組圖像中的物體，再提取另一組的圖像風格，兩者結合，生成一張嶄新的圖像。

除此之外，有這個功能，你還可以對一些經典圖像“下手”，給它們添加一些新元素。

那麼，這麼神奇的功能背後是什麼原理呢？

盡管近兩年來，大規模文本-圖像模型，如DALL·E、CLIP、GLIDE等，已經被證明有很強的自然語言推理能力。

但有一點：如果用戶提出一些特定的需求，比如生成一張包含我最喜歡的童年玩具的新照片，或者把孩子的塗鴉變成一件藝術品，這些大規模模型都很難做到。

為應對這一挑戰，研究給出一個固定的、預先訓練好的文本-圖像模型和一個描述概念的小圖像集（用戶輸入的3-5張圖像），目標是找到一個單一的詞嵌入，從小集合中重建圖像。由於這種嵌入是通過優化過程發現的，於是稱之為“文本倒置（Textual Inversion）”。

具體來說，就是先抽象出用戶輸入圖像中的物體或風格，並轉換為“S∗”這一偽詞（pseudo-word），這時，這個偽詞就可以被當作任何其他詞來處理，最後根據“S∗”組合成的自然語句，生成個性化的新圖像，比如：

“一張S∗在海灘上的照片”、”一幅掛在墻上的S∗的油畫”、”以S2∗的風格畫一幅S1∗”。

值得註意的是，由於本次研究應用一個小規模、經過策劃的數據集，因此在生成圖像時能有效地避免刻板印象。

例如下圖，當提示“醫生”時，其他模型傾向於生成白種人和男性的圖像，而本模型生成圖像中則增加女性和其他種族的人數。

目前，該項目的代碼和數據已開源，感興趣的小夥伴可以關註一下。

作者介紹

該篇論文來自特拉維夫大學和英偉達的研究團隊，作者分別是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal，是特拉維夫大學的計算機科學博士生，師從Daniel Cohen-Or和Amit Bermano，主要研究方向是在減少監督的條件下生成2D和3D模型，目前在英偉達工作。

參考鏈接：

[1]

https://textual-inversion.github.io/

[2]https://github.com/rinongal/textual_inversion

[3]https://arxiv.org/abs/2208.01618

[4]https://twitter.com/_akhaliq/status/1554630742717726720

[5]https://rinongal.github.io/

NVIDIA實現從圖像中抽象出概念再生成新的圖像人類幼崽技能AI終於學會

相關推薦

給張圖就能反推Prompt AI繪畫神器Midjourney能夠“看圖說話”

Meta Make-A-Scene AI：能將人類與計算機的想象力融合為算法藝術

不寫代碼、靠“玩”ChatGPT年入百萬提示工程師正變成矽谷新寵

麻省理工學院AI圖像生成系統讓《DALL-E 2》等模型散發出創意

AI制圖難識別？這些細節和工具可輔助

我一個插畫師給AI打下手，月入3千

夢境可以刻錄？AI讀取大腦重現你所見

我用AI五分鐘生成一個廣告卻花五個小時“去AI味”

微軟154頁研究刷屏：GPT-4能力接近人類 “天網”初現？

GPT-4很強大但仍有諸多謎團 OpenAI選擇隻透露這麼多

谷歌Gemini生圖功能緊急關閉，口碑一夜塌房 Yann LeCun：我早就知道

AI藝術生成器剽竊原創作品三位藝術傢起訴AI作畫公司

TikTok開始在應用中提供一個基本款文本到圖像AI生成器

人人都能用的“AI 作畫”，要成為英偉達的殺手鐧？

NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會

相關推薦

NVIDIA實現從圖像中抽象出概念再生成新的圖像人類幼崽技能AI終於學會