TikTok亂拳打死老師傅：矽谷大廠還在發論文，它產品已經上線

2022-08-16 來自矽星人發表於業界精選

突然間，AI文字轉圖片成為全球科技業的一大流行技術趨勢。幾周前我們報道“新一代梗圖之王”&nbsp;DALL·Emini，一個腦洞十分清奇的文字轉圖片AI小工具。當時我們也提到，包括谷歌、OpenAI&nbsp;等大公司和頂級研究機構都在開發相關模型，就連時尚雜志《COSMO》都采用AI來設計雜志封面。

文/杜晨

來源/矽星人

圖片來源：COSMO雜志

然而令許多人沒想到是：

就在各傢矽谷大廠斥巨資研發、砸無數的人力、發無數的論文，卻還在測試相關技術的時候，TikTok居然異軍突起，首先把AI文字轉圖片做到產品裡，而且直接交到全球十億用戶的手上……

亂拳打死老師傅，中國速度太快

在TikTok的特效菜單下，最近增加一個名叫“AI綠幕”(AIGreenscreen)的新選項。

點擊這個選項，然後在屏幕中間的對話框裡輸入一段文字描述，隻用不到5秒的時間，TikTok就可以根據文字描述生成一張豎版畫作，用作短視頻的背景：

圖片來源：矽星人截圖

TikTok用的這個文字轉圖片模型，還是非常簡單的。矽星人測試幾個含義大相徑庭的提示，生成的圖片可以說都十分的“迷幻"，沒有任何寫實色彩。

但這並不是缺點缺點——正相反，生成結果具有非常強的水彩/油畫感覺，風格遷移(styletransfer)的痕跡明顯，而且用的顏色也都鮮亮明快，給人一種耳目一新的感受。

圖片來源：TechCrunch截圖

我特別想單獨說一下我自己生成的兩張圖片：

下圖左邊的提示字段是知名遊戲“最後生還者”。生成結果的辨識度太高，這不正是遊戲主角Ellie被泥漿血水浸濕的頭發嗎？

右圖更有意思，提示是“轟炸”：我完全沒有想到如此“不和諧”的字段，TikTok的模型居然生成的結果卻相當的“自洽”，特別是圖中的“轟炸機”反而看起來像是代表和平的“白鴿”——是否你也能讀出一點諷刺的意味？

圖片來源：矽星人截圖

當然話說回來，這些隻是我自己的解讀和感受，絕不可能是模型的“本意”。但是有趣的藝術作品不正應該是這樣嘛，讓人能夠發現一些巧妙的“彩蛋”，甚至浮想聯翩，解讀出另外的含義。

從這一角度，我還是非常認可TikTok目前部署的這個模型的。

模型的質量也值得一提。TheVerge、TechCrunch等美國媒體測試一些特殊的敏感字段，AI綠幕生成結果更加抽象，顯示出字節部署的模型在爭議字段上可能已經做出提前規避。

要知道AI文字生成圖片本來就不是簡單的技術，避免爭議/道德風險更是一項相當復雜的工作。

圖片來源：TheVerge截圖

正如文章前面提到，谷歌、OpenAI等巨頭公司和知名機構開發的AI文字生成圖片模型，目前都處於剛剛發佈或者小范圍測試，還在“紙上談兵”的階段。

這邊TikTok不僅很快跟進推出同類模型，更厲害的是已經將其投放到全球十億用戶量級別的產品裡。

本來以為AI藝術創作的潮流還是幾個矽谷大廠在引領，沒想到字節跳動居然“亂拳打死老師傅”——必須給中國互聯網科技公司的工作速度和質量點贊。

AI創作成潮流，矽谷大廠擠破頭

早在2020年，全球知名的人工智能基礎科研機構OpenAI發佈一個名為GPT-3語言模型。當時OpenAI的論文題為“LanguageModelsareFew-ShotLearners”，直接點出超大規模語言模型在多種非訓練人物上具備強大、快速的學習和掌握能力。

GPT-3也完全沒令人失望，在小范圍開放測試API之後，外界人士用它開發出各種各樣神奇的demo，展示寫段子、翻譯公式、解數學題、完成用戶界面設計、生成財務報表等能力。

“AI文字生成圖片”也是這些能力的其中一項。

圖片來源：矽星人

包括 OpenAI、谷歌、Midjourney、StabilityAI 等一眾大小公司，已經開發出多個文字轉圖片生成模型，展示出神經網絡模型具備令人驚訝的藝術創作能力。

從 AI文字轉圖片生成技術開始得到公眾關註，到今天各路大廠和小公司擠破頭也要摻和，各種不開放的、開放的、收費和免費的模型層出不窮……也就過去一年左右的時間。

在這些模型當中，OpenAI的DALL·E是最著名的一款。該模型一代於2021年推出，今年剛剛更新到二代。用戶隻需提供自然語言描述，模型就能夠生成非常寫實 (photorealisitic) 的圖片。

圖片來源：OpenAI

除從零開始生成全新照片，DALL·E2還有更多功能，適合現實中多種藝術工作場景。

比如它的編輯能力，可以在一張已經存在的照片中，在用戶任選的位置“刪除”或者“添加”物體，並且編輯後的效果仍然很寫實：

圖示：在照片的不同位置添加“火烈鳥”。圖片來源：OpenAI

再比如 DALL·E2還具備“啟發”的能力，能夠根據一張已經給定的圖片，生成風格近相同的新照片：

圖片來源：OpenAI

順便一提：有個跟OpenAI沒關系的第三方開發者，自己仿著DALL·E做一個圖片生成模型，還給免費開放，取名為DALL·Emini。

結果這個“仿制品”比正品還受歡迎，在社交網絡Twitter上專門搬運這個模型生成的奇怪圖片的賬號，粉絲量都破百萬。甚至逼得OpenAI專門出來澄清跟它沒關系，要求開發者做出改變。現在這個免費小工具已經改名為 Craiyon。

（聽說此事之後，粉絲們還做一張梗圖，嘲笑OpenAI那邊還在控制測試權限，這邊DALL·Emini早就給全網玩嗨……）

圖片來源：FALSEKNEES

而在矽谷大廠的行列當中，現在谷歌是已知動作最快的，在DALL·E2出來不久後也發佈自己的模型，名為Imagen。

就像DALL·E的根源是語言超大模型GPT-3，Imagen的根源也是谷歌開發的泛用型超大語言模型T5。至於Imagen的這個命名，其實是圖片(image)+生成(generate)的混成詞。

圖片來源：GoogleResearch

雖然做的比DALL·E晚，同樣作為矽谷知名AI研究型公司的谷歌，還是非常不服OpenAI的，宣稱找人做一堆同類模型的盲測，結果是受試者更喜歡Imagen生成的結果，認為其在“生成質量”和“文字描述還原度”上都更勝一籌。

——當然，究竟是DALL·E2和Imagen誰的生成結果更好，還是一個很主觀的，見仁見智的事情。在技術實現上，這兩傢其實大同小異，都是用Diffusion（擴散）模型生成，然後再用Super-Resolution（超分辨率)技術來讓生成結果更加清晰。

圖片來源：GoogleResearch

還有更多規模更小的新創公司也在做AI圖片生成和藝術創作這件事。

其中一傢比較有意思的公司就是Midjourney，其創始人是原知名動作感應技術公司LeapMotion創始人DavidHolz；公司的投資人和顧問團隊更是相當強大，都是蘋果、特斯拉、AMD、GitHub等知名公司的核心人物。

Midjourney跟OpenAI、谷歌的寫實方向背道而馳，而是在抽象、藝術性、獨特風格之間尋求某種巧妙的結合點，這也是這傢公司和其模型比較特別之處。另外Midjourney開放模型技術的做法也很“年輕化”，不是發佈API和文檔，而是把服務接口做到聊天軟件Discord裡。

圖片來源：Midjourney

說完這些比較知名的公司，再來看一傢名不見經傳，但是和TikTok一樣出手極快的美國公司：StabilityAI。

這傢公司總部位於矽谷LosAltos，在上周剛剛發佈一個可以免費使用的AI圖片生成產品StableDiffusion。

圖片來源：StabilityAI

StableDiffusion和前面介紹的幾個寫實派模型沒有太大不同。但是和產品、公司名稱裡的“穩定”正相反，這個模型在有害/爭議字段的處理上，可以說完全沒有任何作為。而又因為產品是完全免費提供給公眾的，已經有很多用戶用它制作deepfake、暴力、恐怖主義、虛假新聞圖片等有害的內容……

最近大半年，AI圖片生成已經成為一個名副其實的科技行業“熱詞”，隻是沒想到，OpenAI和谷歌做這麼多年，卻被 TikTok給悄無聲息地跑贏。接下來，應該會有更多的科技公司也參與其中，不少全民應用背後的大廠估計又要忙活著把這項技術加到產品中。

TikTok亂拳打死老師傅：矽谷大廠還在發論文，它產品已經上線

相關推薦

互聯網眾籌偃旗息鼓？京東眾籌暫停運營這些大廠還沒退場

拼多多，三拳打倒老師傅

超億臺廢舊傢電去哪兒？拆解工廠還沒“吃飽”

復旦MOSS大模型開源 Github和Hugging Face同時上線

中國在全球半導體學術會議上超越美國奪得研發論文數量冠軍

ChatGPT能讓TMT投資“借屍還魂”嗎？

矽谷巨頭集體批鬥TikTok的“科技峰會”，折射出什麼問題？

姐弟倆仿冒論文期刊：四年賺1800多萬

辭職讀博，能幫大廠人重啟人生嗎？

中國人做個App：老外終於明白什麼叫“小紅書”

學校封殺，大廠禁用 ChatGPT引發大面積恐慌

在裁員這件事上，矽谷大廠的“心眼”還真多

矽谷夢碎：20年未有之裁員為什麼會發生？

大廠出海，敗於“姿態”