國產AI作畫神器:更懂中文,竟然還能做周邊!


最近在“一句話生成畫作”這個圈子裡,又一個AI工具悄然火起來。不是你以為的DiscoDiffusion、DALL·E,再或者Imagen……而是全圈子都在講中國話的那種。瞧,已經入圈的小夥伴們,都開始紛紛曬自己搞出來的傑作:


從網友們上傳的諸多畫作來看,這個AI可以cover的 風格還真不少。

腦洞大開的《熊貓騎摩托》,中國山水畫裡的春天小雨,絢麗的概念插畫《亞特蘭蒂斯》,甚至一隻黑白色調的戴帽子抽煙的狗……


那這個既能支持中文,又能hold住眾多畫風的AI工具,到底是什麼來頭?

不賣關子。

它的廬山真面目,正是百度最新對外發佈的一款中文作畫AI—— 文心·一格

類似這種“你說我畫”的AI,聽說在國外已經火很長一段時間。

現在終於等到個 國產版的,那麼它到底好不好用呢?

“文心·一格”的初體驗

既然在這個圈子流行講中文,那咱就先從“中國風”開始上手。

例如輸進去極具古典韻味的“江南水鄉”,然後在方向和風格上選擇“傳統”、“中國風”。


僅需等待片刻時間,“啪的一下”,一幅符合語義和風格的畫作就誕生:


嘿~還別說,這畫還真有一股子“小橋流水人傢”的味道。

既然是國風,那就更傳統一點,直接輸入一句古詩詞,看文心·一格會作何反應:

雲深不知處

雲深不知處


整體來說,這幅畫作確實是把“雲之深”韻味展現得到位。

據解,文心·一格還可以繼續加大難度。針對AI圖像生成技術的資深用戶,一格即將開放 高級自定義功能,支持文本描述結合參數設置的方式探索更多創意。

當然,也可以在”藝術傢精品畫廊”裡先瀏覽下內測用戶已經生成的圖片,像下面這張:


講真,若非知道這是AI創作的,第一眼還以為是哪個動漫中的場景,是有夠絢爛的。

還有下面這一張,也同樣稱得上是驚艷絕倫。


但正所謂“貨比三傢”,那麼文心·一格作為AI作畫這條賽道的“後起之秀”,和國外的產品相比又如何呢?

下一個挑戰環節,就是國內AI vs. 國外AI——惡犬咆哮。


較為明顯的是,Disco Diffusion的風格更趨向於狂野;而文心·一格則是更偏向現實主義一些。

再拿文心·一格和DALL·E 2做個比較——畢加索風格的貓:


在看完這兩者的創作對比,你覺得誰傢的更畢加索一些呢?

不過在這般效果背後,對應的問題也隨之而來:

要生成風格更全面的圖片,文心·一格的用法會更復雜嗎?

懂中文,也懂“懶人”

用起來,並不復雜。

我們從操作界面、提示詞要求和性能要求幾方面,對Disco Diffusion和文心·一格等AI畫畫產品進行簡單對比。

操作界面上,Disco Diffusion開放的接口不能說很復雜,但確實有點門檻。

它直接在GoogleColab上運行,需要申請賬號後使用 (圖片生成後保存在雲盤),圖像分辨率、尺寸需要手動輸入,此外還有一些模型上的設置。

好處是可更改的參數更多,對於高端玩傢來說可操作性更強,隻是比較適合專門研究AI算法的人群:


相比之下,文心·一格的操作隻需三個步驟:輸入文字,鼠標選擇風格&尺寸,點擊生成。


前文已經提到,文心·一格同樣也具備Disco Diffusion的“高級自定義”功能,隨後便會開放,對於想擁有更多“參數自由”的小夥伴們來說,同樣是個不錯的選擇。

至於 提示詞,Disco Diffusion的設置還要更麻煩一些。

除描述畫面的內容以外,包括畫作類別和參考的藝術傢風格也都得用提示詞來設置,通常大夥兒會在其他文檔中編輯好,再直接粘過來。

關鍵一旦提示詞設置得不好,生成的效果就不盡如人意,需要反復嘗試、不斷細化,AI最終才能生成合適的畫面效果。

相比之下文心·一格倒是沒有格式要求,輸入150字的句子或詞組都可以:

當然,輸入畫傢名字如莫奈,也能輸出對應風格:


最後是 性能要求上,Disco Diffusion是有GPU使用限制的,每天隻能免費跑3小時。抱抱臉 (HuggingFace)上部分AI文生圖算法的Demo雖然操作簡單些,但一旦網速不行,就容易加載不出來:

測試mini DALL·E時加載就失敗過

相比之下,文心·一格除使用高峰期以外,基本上都是2分鐘就能生成,對使用設備也沒有要求。

總體來看,同樣是文字生成圖片AI,實際相比文心·一格的“真·一句話生成圖片”,DALL·E和Disco Diffusion的生成過程都不太輕松。

所以在這背後,文心·一格生成圖像,究竟是基於一個怎樣的邏輯?

我們以輸入“雲深不知處”為例,希望能輸出一幅中國風的畫作。當接收到這幾個字詞 (query)後,AI的腦細胞就開始“運作”起來,從語法、詞法、語義等角度對文本進行分析。

如果將生成過程可視化,這個階段還看不出什麼效果,處於AI理解文本的階段:


很快,AI“拆解”文本後,理解要怎麼畫這幅畫,於是在特定尺寸 (用戶可選)的畫紙上,構思出整體的輪廓,兼具雲的元素和中國畫的風格:


隨後,基於擴散生成模型的原理,迭代地完善並修正畫面細節,不斷提高清晰度、反復檢查圖文描述一致性,用更精確的配色替代噪聲:


最後,生成名為《雲深不知處》的完整畫作:


看似“一句話生成圖片”不難,其實對 AI語義理解圖像生成能力提出進一步要求。

為能更好地理解文本、提升輸出效果,文心·一格還在百度文心的圖文生成跨模態模型 ERNIE-VilG的基礎上,進行更詳細的優化。

為提升圖文理解能力,在知識增強的基礎上,引入 跨模態多視角對比學習

為降低輸入要求同時提升效果,采用 基於知識的文本聯想能力,讓模型學會自己擴展提示詞的細節和風格;

為提升圖像生成能力,采用 漸進式擴散模型訓練算法,讓模型來選擇效果最好的生成網絡。


此外,在訓練和數據上,文心大模型的產業級能力也進一步給文心·一格提供幫助,例如AI訓練數據和平時在產業實踐中積累的經驗,都能應用到文心·一格的模型中去;至於百度知識圖譜的算法能力,則進一步提升模型通用性。

值得一提的是,如果開發者想將文心·一格的能力用到產品中,直接調用ERNIE-VilG的API接口就行,可以說是非常方便。

One More Thing

我們在試玩文心·一格的時候,還發現左下角這些有意思的應用場景,一鍵就能生成預覽:


例如,頗有自如風格的裝飾畫:


老板批量發年貨時印的編織袋 (手動狗頭):


其實,這也是文心·一格區別於Disco Diffusion、OpenAI的DALL·E 2的另一個特點——更強的實用性。

不僅普通玩傢可以用來生成自己想畫但畫不出來的內容, 絕不會有兩幅相同的畫作,腦洞再放大點,就連媒體作者等文字內容創作者,也能用它高質量高效率配圖。

(嗯,以後你看量子位的文章,說不定有些配圖就是用AI生成的)

專業畫師、或是設計師和藝術傢,更可以用它來啟發靈感、輔助創作。

當然,從官網看來,這個產品還在更新迭代、進一步優化中。

至於未來是否會在更多數字藏品、插畫、海報和電影動漫中,看見文心·一格的畫作?

我們拭目以待。


相關推薦

2023-02-07

最近一段時間,ChatGPT已經在全球范圍內爆火,新的AI幾乎超過以往所有產品,對比之下蘋果的Siri完全淪為智障。值得註意的是,國內一些公司在AI人工智能等領域的研究也並不落後國外公司。據報道,百度對標ChatGPT的AI產品中文

2022-11-03

應用,不以盈利為目標。魔搭社區地址:modelscope.cn中文作畫AI體驗入口:https://decoder.modelscope.cn/

2023-04-05

圖已經不是什麼難事。盡管有著“無需動筆”、“零門檻作畫”等一系列優點,但很多人並不能借助AI之手輕松獲得一幅理想中的作品——難點在於“prompt”。Prompt 方法是一門極深的管理學問:如果不輸入精準的命令描述,生成

2024-05-27

陪伴,釋放你的想象力!🎨到這裡,以上這些AI小說推文神器就介紹完畢啦!快根據自己的需求選擇合適的神器,讓你的創作更上一層樓吧!🚀#AI寫作 #小說創作 #創意靈感 #閱讀推薦 #科技前沿 #人工智能 #智能寫作 #寫作工具 #

2023-05-16

道中輸入/想象+生成指令,即可召喚 Midjourney 機器人進行作畫。在頻道內輸入/漫畫+生成指令,即可召喚 Niji-journey機器人進行作畫。除可以調用 MJ 和 Niji 的最新模型和所有參數以外,當前Midjourney還上線新功能:放大圖像(upscale

2023-04-07

優勢。ChatGPT這把火燒到如今,國內對具備足夠競爭力的國產生成式大模型的需求,正在與日俱增。ChatGPT類產品提升生產效率的潛力,已經被不斷驗證。但與此同時,前有ChatGPT大規模封號、亞洲成重災區,後有OpenAI因算力問題停

2022-10-09

?新的崗位已經悄然誕生既然AI插畫師招聘看重“運用AI作畫工具的能力”,如今AI工具的生成效果究竟如何?首先針對作畫工具本身,包括Midjourney、以及各種基於Stable Diffusion生成的工具如Lexica和KREA等等,目前都已經開放關鍵詞

2024-04-22

發使用,不隻是廠商自吹自擂,還能讓2億A股股民狂歡的國產大模型產品,此前沒有過。Kimi呈現給用戶的東西很簡單:一個像百度搜索一樣的搜索框,“文件,拖進來;網址,發出來”,然後用戶可以直接針對發給它的文件或網

2023-03-17

辦公軟件的新革命!昨晚,微軟正式發佈由AI驅動的辦公神器Microsoft365Copilot,讓Word、PPT、Excel、OutLook、協同辦公軟件的生產力都飆增。以前動輒要花幾個小時去整理資料、寫報告、做PPT,現在AI把時間縮短到隻要幾分鐘!“這是

2023-06-01

快科技6月1日消息,今天上午阿裡雲正式發佈新品通義聽悟。這是一款基於通義千問語言模型、音視頻AI模型能力,能為用戶帶來音頻、視頻內容記錄和閱讀全新體驗的AI助手,在工作和學習中提供更高的效率和幫助。目前通義聽

2022-08-23

在內的幾乎所有內容的跨設備同步,堪稱新一代傳文件“神器”。近日,Edge瀏覽器官方賬號發起投票,正式開始向用戶征集Drop這一功能的中文名。在官方給出的拖拖、無邊、易投、愛傳和閃推五個選項中,易投目前的得票率最

2022-06-30

數上,還不同於谷歌自傢的 Imagen,Parti 可以說是把“AI 作畫”卷出瞭新高度。就連谷歌 AI 負責人 Jeff Dean 也連發數條推文,玩得不亦樂乎:可擴展到 200 億參數:更逼真,更“聰明”事實上,Parti 的能力還不止於此。得益於模型

2023-08-10

統,提供eDrive 40和M60 xDrive兩種動力。這樣看來,國產5系的動力還是值得期待的。從目前曝光的信息來看,全新一代BMW 5系竭力適應中國消費者的購車喜歡,進行針對性地升級,變得更懂國人。面對奔馳EQE、蔚來ET7、

2023-03-02

發出這個具有對話能力的大型語言模型之後,也想找一個國產的、能夠代表中國特色的影視形象來命名。開發過程中,正逢《流浪地球2》電影熱映,我們的團隊成員都非常喜歡《流浪地球2》,也都是《流浪地球2》的粉絲。影片