谷歌用新AI超越自己:讓Imagen能夠指定生成對象 風格隨意轉換


給Imagen加上“指哪打哪”的能力,會變得有多強?隻需上傳3-5張指定物體的照片,再用文字描述想要生成的背景、動作或表情,就能讓指定物體“閃現”到你想要的場景中,動作表情也都栩栩如生。不止是動物,其他物體像墨鏡、書包、花瓶,也都能做出幾乎以假亂真的成品:

屬於是發朋友圈也不會被別人看出破綻的那種。(手動狗頭)

這個神奇的文字-圖像生成模型名叫DreamBooth,是Google的最新研究成果,基於Imagen的基礎上進行調整,一經發佈就在Twitter上引發熱議。


有網友調侃:這簡直是最先進的梗圖生成器。


目前相關研究論文已上傳至arXiv。

幾張照片就能“環遊世界”

在介紹原理前,讓我們先來看看DreamBooth的各種能力,包括換景、指定動作表情服飾、更迭風格等。

如果你是個“鏟屎官”,有這個模型的“ 換景能力”,就能足不出戶送自傢狗子走出傢門,凡爾賽宮裡、富士山腳下……通通不在話下。


△光照也比較自然

不僅如此,寵物的 動作和表情也都能隨意指定,屬實是把“一句話P圖”的細節拿捏到位。


除上面的“基操”以外,DreamBooth甚至還能更換各種照片風格,也就是所謂的“加濾鏡”。

例如,各種“世界名畫”畫風、各種視角的狗子,簡直不要太藝術:


至於給它們 加上裝飾?各種cosplay的小道具,也是小菜一碟。


除此之外,無論是更換顏色:

還是更魔幻一點,更換物種,這隻AI也都能做到。

那麼,如此有趣的效果背後的原理是什麼呢?

給輸入加個“特殊標識符”

研究人員做個對比,相較於其他大規模文本-圖像模型如DALL-E2、Imagen等,隻有采用DreamBooth的方法,才能做到對輸入圖像的忠實還原。

如下圖所示,輸入3張右邊表盤上畫著黃色“3”的小鬧表,其中DreamBooth生成的圖像完美保留鐘表的所有細節,但DALL-E2和Imagen幾次生成的鐘都與原來的鐘“有那麼點差異”。


△李逵和“李鬼”

而這也正是DreamBooth最大的特點—— 個性化表達

用戶可以給定3-5張自己隨意拍攝的某一物體的圖片,就能得到不同背景下的該物體的新穎再現,同時又保留其關鍵特征。

當然,作者也表示,這種方法並不局限於某個模型,如果DALL·E2經過一些調整,同樣能實現這樣的功能。

具體到方法上,DreamBooth采用給物體加上“ 特殊標識符”的方法。

也就是說,原本圖像生成模型收到的指令隻是一類物體,例如[cat]、[dog]等,但現在DreamBooth會在這類物體前加上一個特殊標識符,變成[V][物體類別]。

以下圖為例,將用戶上傳的三張狗子照片和相應的類名(如“狗”)作為輸入信息,得到一個經過微調的文本-圖像擴散模型。

該擴散模型用“a [V] dog”來特指用戶上傳圖片中的狗子,再把其帶入文字描述中,生成特定的圖像,其中[V]就是那個特殊標識符。


至於為什麼不直接用[V]來指代整個[特定物體]?

作者表示,受限於輸入照片的數量,模型無法很好地學習到照片中物體的整體特征,反而可能出現過擬合。

因此這裡采用微調的思路,整體上仍然基於AI已經學到的[物體類別]特征,再用[V]學到的特殊特征來修飾它。

以生成一隻白色的狗為例,這裡模型會通過[V]來學習狗的顏色(白色)、體型等個性化細節,加上模型在[狗]這個大的類別中學到的狗的共性,就能生成更多合理又不失個性的白狗的照片。

為訓練這個微調的文本-圖像擴散模型,研究人員首先根據給定的文本描述生成低分辨率圖像,這時生成的圖像中狗子的形象是隨機的。

然後再應用超分辨率的擴散模型進行替換,把隨機圖像換成用戶上傳的特定狗子。


研究團隊

DreamBooth的研究團隊來自Google,第一作者是Nataniel Ruiz。

Nataniel Ruiz是波士頓大學圖像和視頻計算組的四年級博士生,目前在Google實習。主要研究方向是生成模型、圖像翻譯、對抗性攻擊、面部分析和模擬。


相關推薦

2022-06-30

……把它給畫出來呢?(讀都讀不出來,還畫畫???)谷歌最新提出來的一個 AI——Parti,它就能輕松 hold 住這事。在把這個單詞“投喂”給 Parti 後,它就能有模有樣地生成多張合情合理的肺部疾病圖片:但這隻是 Parti 小試

2022-10-07

內容生成AI進入視頻時代!Meta發佈“用嘴做視頻”僅一周,GoogleCEO劈柴哥接連派出兩名選手上場競爭。第一位ImagenVideo與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。另一位選手Phenaki,則能根據2

2022-08-16

十分清奇的文字轉圖片AI小工具。當時我們也提到,包括谷歌、OpenAI 等大公司和頂級研究機構都在開發相關模型,就連時尚雜志《COSMO》都采用AI來設計雜志封面。文/杜晨來源/矽星人圖片來源:COSMO雜志然而令許多人沒

2024-04-10

4月10日消息,谷歌升級大語言模型Gemini1.5Pro,為其配備“耳朵”,使其能夠監聽並分析上傳的音頻文件,從財報電話會議或視頻音頻中提取關鍵信息,無需轉為書面材料。在美國時間周二舉辦的GoogleNext大會上,谷歌宣佈,通過

2023-02-01

結底,這項技術可能不會改變科技巨頭之間的力量平衡。谷歌等科技巨頭將從所謂的生成式AI(AIGC)中獲益更多,而不是OpenAI這樣的創企。以下是翻譯內容:在斥資數十億美元進行AI研發和收購之後,谷歌將風頭拱手讓給OpenAI。

2022-10-15

關鍵詞相關的圖片。AI根據文本生成圖像可以追溯到2015年谷歌推出的DeepDream,當時生成的圖片無論是在像素上還是圖片質量上都較為粗糙。2021年OpenAI的DALL·E面世,將AI文字生成圖像的能力推向新高度,此後這項技術的更新迭代

2022-12-21

分的人一樣,在過去的 12 年裡,John喜歡在 Facebook 上發佈自己在工作記錄、傢庭生活、假期照片等。Arts Technica團隊通過從中選取7張含有John的圖片,再使用近期大火的Stable Diffusion和Google研究院發佈的Dreambooth兩個AIGC工具,接著就

2024-03-21

為大語言模型和ChatGPT的核心基石。而這項技術最初源於谷歌的八名員工,他們於2017年12月發佈論文《你所需要的是註意力》。這篇論文如同在人工智能領域引發一場“宇宙大爆炸”,徹底改變技術發展的軌跡。如今,這八位谷

2022-09-20

最近,他提出,在評估 AGI 的進展時,關鍵要看像 Dall-E、Imagen、Midjourney 和 Stable Diffusion 這樣的系統是否真正理解世界,從而能夠根據這些知識進行推理並進行決策。在判斷這些系統之於 AI (包括狹義和廣義的 AI)的意義時,我

2022-06-24

谷歌周四介紹瞭Parti文本轉圖像生成器項目的最新進展,可知通過200億輸入的訓練,其已能夠創建出栩栩如生的圖像。不過為瞭避免AI數據集中存在的偏見風險,該公司並未通過公眾發佈的文本來展開訓練。(來自:Google Parti)

2024-03-17

lepath> <start_line>-<end_line> <content> 允許代理用新內容重寫一系列行。檢索:在這一類別中,檢索工具包括grep、find和ls等基本CLI工具,以及更復雜的基於嵌入的技術。這些技術能讓代理查找類似的代碼片段,從而提

2024-02-24

Gemini好像終於被玩壞。去年年底,GoogleGemini震撼業界,它是Google“最大、最有能力和最通用”的AI系統,號稱第一個原生多模態大模型,能力超越GPT-4,也被認為是Google反擊微軟和OpenAI的強大工具。對此,在 2 月 8 日,Google還把

2022-10-06

多人以往對電腦插圖藝術的固有印象。而在今年,伴隨著谷歌Disco Diffusion的發佈並面向開發者開放,具有繪畫能力的Disco Diffusion一經面世,便引發外界對於AI作畫的關註與討論。其實,Disco Diffusion對提示詞的要求非常寬松,完全

2023-02-09

手OpenAI推出融合ChatGPT功能的必應搜索引擎後僅僅一天,谷歌便在巴黎舉行公開活動,展現公司對於AI賦能搜索引擎的理解。根據谷歌對發佈會的介紹,公司正在重新構想人們搜索、探索和與信息交互的方式,使得查找內容比以往