很快啊,StableDiffusion又被發掘新用途——設計LOGO最關鍵的“形意結合”,被它拿捏得明明白白。看見Cat秒畫貓貓頭:瑜伽店YOGA幾個字母用人體形態一轉換,風格完全不出錯:
隻設計其中一個字也沒問題,例如將Dog的D畫成一個狗子:
屬實簡潔又傳神有木有!
哪怕是面對中文字體,AI也能很好地理解其中的意思,快速畫出甲方想要傳達的LOGO形象:
要是開店用上這個,哪裡還需要花幾十上百塊專門設計一個LOGO出來?(doge)
雖然之前也有不少設計LOGO的AI,不過從這次生成的效果來看,還真有點不太一樣。
保留一部分原有字體的味道
事實上,在這次研究之前,已經有不少研究在考慮如何用AI設計LOGO。
從效果來看,主要可以分成三類:
一是以字體為形狀限制,將圖片風格遷移上去(如圖AB);二是以圖片風格為基底,將字體遷移到圖片中去(圖D);三是將不同圖片的形狀和字體關聯起來,生成或彩色或黑白的“圖像拼接”風格LOGO設計(圖CE)。
然而,與下面人類手工設計的LOGO比起來,上面AI設計的效果不能說不好看,但似乎還差那麼點意思:
作者們經過一通探查,發現人類手工設計的LOGO並不“喧賓奪主”。
人類設計師會在保留原本字體特色、讓人們能一眼認出單詞的基礎上,再加入一點創新之處,例如將Jazz中的J改成樂器,但其他人一眼仍然能認出“JAZZ”字體的形狀。
整體來說,就是在保留一部分字體“味道”的同時,加入一定的設計感。
例如這是Stable Diffusion生成的“FROG”設計,FRO仍然是原本字體的形狀,隻有G變成一隻跳出去的小青蛙:
如果用Stable Diffusion 2進一步進行後期處理的話,還能進一步實現上色功能,顯得更加生動:
生成LOGO的風格也能隨著原本設計字體的變化,而產生不一樣的變化。
例如這是8種字體下生成的不同瑜伽LOGO,每種風格都不一樣:
相比之下,其他AI模型在生成字體的時候,倒是更喜歡保留自己的風格(手動狗頭):
那麼,這種神奇的字體設計AI是怎麼做出來的?
用貝塞爾曲線調整字母形狀
為一定程度上保留原本字體的風格、以及隻改變單詞中的某幾個字母,作者們想出一種“微調”字母形狀的方法——
那就是讓AI學會用貝塞爾曲線,對不同字體的字母進行小幅度變形。
(用過PS中“鋼筆”的小夥伴們應該對貝塞爾曲線不陌生,用它能控制鼠標畫出一些神奇的曲線)
具體控制點數量,則根據字母復雜度和字體風格進行迭代變換,直到設計出來的字母符合要求,其中橙色是初始點,藍色是後續增加的控制點:
控制點數量對生成效果影響有多大?
例如這是不同數量的控制點生成字母的效果,如果數量太少,會看不清設計的圖像形狀;但數量過多又容易扭曲字體原本的形狀:
基於這種核心設計思路,作者們結合Stable Diffusion和CLIP,設計出一整個字體設計AI模型:
其中,ACAP(as conformal as possible)損失函數基於德勞內三角形剖分算法,對字母形狀進一步進行約束。
例如這是PANTS(褲子)在變形前和變形之後的形態,可以看見ACAP在保留褲子形態的同時,也保留字體的效果:
與此同時,為進一步保留字體形態,作者們采用一個低通濾波器,保證調整後的字母不與原始字母偏離太多。例如這是Bear(熊)中的B調整後的形態:
應用這套模型,生成每個字母的速度也還不錯。
在一塊RTX 2080 GPU上,生成單個字母的LOGO設計大約需要5分鐘。
作者介紹
雖然作者們放到項目主頁上的論文是匿名的:
不過在arXiv上,作者們的名字倒是已經公開,他們分別來自以色列特拉維夫大學、Reichman University(萊希曼大學),以及倫敦大學金史密斯學院:
共同一作Shir Iluz,特拉維夫大學電子與電氣工程理學碩士,目前的研究方向是生成AI,感興趣的方向是深度學習與計算機視覺。
共同一作Yael Vinker,特拉維夫大學計算機視覺博士生,曾經在以色列希伯來大學獲得計算機科學本科與碩士學位,目前研究方向同樣是深度學習與計算機視覺。
這麼看來,雷軍當年設計小米LOGO的200萬元花早啊。