NVIDIA實現從圖像中抽象出概念再生成新的圖像 人類幼崽技能AI終於學會


人類幼崽2歲就能做的事,AI竟然才學會?早在2017年,就有網友吐槽:2歲幼童隻要見過一次犀牛的照片,就能在其他圖片裡認出不同姿勢、視角和風格的卡通犀牛,但AI卻做不到。


直到現在,這一點終於被科學傢攻克!

最新研究發現,隻要給AI喂3-5張圖片,AI就能抽象出圖片裡的物體或風格,再隨機生成個性化的新圖片。


有網友評價:非常酷,這可能是我這幾個月來看到的最好的項目。


它是如何工作的?

讓我們先來看幾個例子。

當你上傳3張不同角度的陶瓷貓照片,可能會得到以下4張新圖像:兩隻在船上釣魚的陶瓷貓、陶瓷貓書包、班克斯藝術風格的貓以及陶瓷貓主題的午餐盒。


同樣的例子還有藝術品:


鎧甲小人:


碗:


不隻是提取圖像中的物體,AI還能生成特定風格的新圖像。

例如下圖,AI提取輸入圖像的繪畫風格,生成一系列該風格的新畫作。


更神奇的是,它還能將兩組輸入圖像相結合,提取一組圖像中的物體,再提取另一組的圖像風格,兩者結合,生成一張嶄新的圖像。


除此之外,有這個功能,你還可以對一些經典圖像“下手”,給它們添加一些新元素。


那麼,這麼神奇的功能背後是什麼原理呢?

盡管近兩年來,大規模文本-圖像模型,如DALL·E、CLIP、GLIDE等,已經被證明有很強的自然語言推理能力。

但有一點:如果用戶提出一些特定的需求,比如生成一張包含我最喜歡的童年玩具的新照片,或者把孩子的塗鴉變成一件藝術品,這些大規模模型都很難做到。

為應對這一挑戰,研究給出一個固定的、預先訓練好的文本-圖像模型和一個描述概念的小圖像集(用戶輸入的3-5張圖像),目標是找到一個單一的詞嵌入,從小集合中重建圖像。由於這種嵌入是通過優化過程發現的,於是稱之為“文本倒置(Textual Inversion)”。

具體來說,就是先抽象出用戶輸入圖像中的物體或風格,並轉換為“S∗”這一偽詞(pseudo-word),這時,這個偽詞就可以被當作任何其他詞來處理,最後根據“S∗”組合成的自然語句,生成個性化的新圖像,比如:

“一張S∗在海灘上的照片”、”一幅掛在墻上的S∗的油畫”、”以S2∗的風格畫一幅S1∗”。


值得註意的是,由於本次研究應用一個小規模、經過策劃的數據集,因此在生成圖像時能有效地避免刻板印象。

例如下圖,當提示“醫生”時,其他模型傾向於生成白種人和男性的圖像,而本模型生成圖像中則增加女性和其他種族的人數。


目前,該項目的代碼和數據已開源,感興趣的小夥伴可以關註一下。

作者介紹

該篇論文來自特拉維夫大學和英偉達的研究團隊,作者分別是Rinon Gal、Yuval Alaluf、Yuval Atzmon、Or Patashnik、Amit H. Bermano、Gal Chechik、Daniel Cohen-Or。

第一作者Rinon Gal,是特拉維夫大學的計算機科學博士生,師從Daniel Cohen-Or和Amit Bermano,主要研究方向是在減少監督的條件下生成2D和3D模型,目前在英偉達工作。


參考鏈接:

[1]

https://textual-inversion.github.io/

[2]https://github.com/rinongal/textual_inversion

[3]https://arxiv.org/abs/2208.01618

[4]https://twitter.com/_akhaliq/status/1554630742717726720

[5]https://rinongal.github.io/


相關推薦

2023-04-05

,可讓您將圖像轉換為文字。”具體來說,Midjourney 學會從圖像中反推 prompt。如果你在 Midjourney 上傳一張圖片,它會提供給四個版本的描述,你可以直接拿來並進行調整,然後去生成自己想要的圖片變體。Midjourney 是一款 2022 年

2022-07-15

東西,但用戶對輸出圖像的具體方面沒有任何控制。“為實現AI推動創造性表達的潛力,”Meta CEO馬克·紮克伯格在周二的博客中表示,“人們應該能塑造和控制系統生成的內容。”該公司的“探索性AI研究概念”被稱為Make-A-Scene

2023-04-12

是提供詳細的、有創意的描述,以激發 AI 獨特而有趣的圖像。請記住,AI 能夠理解多種語言並能解釋抽象概念,因此請盡可能發揮想象力和描述性。例如,您可以描述未來城市的場景,或者充滿奇怪生物的超現實景觀。您的描

2022-09-25

聯網迎來一個集體感覺良好的時刻。這個基於人工智能的圖像生成器的靈感來自於藝術傢薩爾瓦多-DALL-E和動畫電影中可愛的機器人瓦力,它使用自然語言來生成你心中想要的任何神秘而美麗的圖像。看到打出的輸入信息,如&

2023-04-06

,他們已無法判斷何為真實、何為虛構。機器生成的虛假圖像:教皇穿著巴黎世傢風格羽絨服,走在城市街道上。巴勃羅·塞維爾(Pablo Xavier,假名)——一個31歲的芝加哥建築工人,是這張熱門圖片的締造者。他在一個周五的

2022-10-09

,可以免費使用。以Lexica為例,先來看看用關鍵詞生成的圖像效果。無論國畫還是古風建築,構圖的色彩和風格竟然都挺不錯:即使將單張圖片放大來看,生成的屋簷細節和遠處的建築群安排也比較耐看:換一個平臺KREA來看,

2023-03-09

人類眼中所見如何轉化為腦中圖像,這是神經科學傢一直努力破解的問題。隨著研究的不斷深入,如今人工智能(AI)在模仿上述圖像轉化過程方面表現得越來越好。近日,在日本研究團隊開展的一項新研究中,AI可以通過讀取

2024-04-15

”——我們開始在地鐵、電梯間和商店看到AI生成的廣告圖像。之所以稱之為“入侵”,那是因為這些圖像不僅具有濃濃的“AI味”,其中不合常理之處也未經修正,讓不少人大呼“陰間”。這種廣告,簡直就是在花錢廣而告之

2023-03-27

ipt代碼,以生成畫傢 Kandinsky風格的隨機圖像。如下為GPT-4實現代碼過程:在文學和數學結合上,GPT-4能夠以莎士比亞的文學風格證明質數是無窮多的。此外,研究還測試GPT-4將歷史知識和物理知識結合起來的能力,通過要求其撰

2023-03-16

輕松地規定其風格和行為。它是多模態的模型,可以理解圖像內容。但是,GPT-4也有嚴重的缺陷,與GPT-3一樣,該模型會產生“幻覺”並犯下基本的推理錯誤。GPT-4發佈後,多傢媒體關註的焦點是,OpenAI並沒有透露很多細節,包括

2024-02-24

眾多用戶在使用人像生成服務時發現,Gemini 似乎拒絕在圖像中描繪白人,以至於生成不少違背基本事實(性別、種族、宗教等)的圖片。以往的圖像生成模型大多被詬病生成人物圖像以“白人”為主,而 Gemini 矯枉過正?在 reddi

2023-02-13

都存在爭議。在圖像上訓練的人工智能藝術模型包含模型從圖像中學到的“模式”,然後將其存儲為數字模型參數。一旦用戶輸入提示,模型就會根據這一數學公式並在文本的指引下,從頭生成自己的圖像。(如果你想深入解,

2022-08-15

文本-圖像人工智能系統目前在能力和受歡迎程度上都在蓬勃發展,還有什麼比它們出現在世界最熱門的應用程序中更好的證明?那就是TikTok。這個視頻平臺最近增加一種新的效果,它稱之為"人工智能綠屏",

2022-10-16

,為下一階段業績增長提供更多想象空間。有趣的是,從NVIDIA Canvas的推出來看,英偉達確實有考慮過發展“AI作畫”這方面的業務。AI作畫或許不能成為刺激顯卡業務增長的動力,但是其能否成為英偉達未來所倚重的優勢業務,