TikTok亂拳打死老師傅:矽谷大廠還在發論文,它產品已經上線


突然間,AI文字轉圖片成為全球科技業的一大流行技術趨勢。幾周前我們報道“新一代梗圖之王” DALL·Emini,一個腦洞十分清奇的文字轉圖片AI小工具。當時我們也提到,包括谷歌、OpenAI 等大公司和頂級研究機構都在開發相關模型,就連時尚雜志《COSMO》都采用AI來設計雜志封面。

文/杜晨

來源/矽星人

圖片來源:COSMO雜志

然而令許多人沒想到是:

就在各傢矽谷大廠斥巨資研發、砸無數的人力、發無數的論文,卻還在測試相關技術的時候,TikTok居然異軍突起,首先把AI文字轉圖片做到產品裡,而且直接交到全球十億用戶的手上……

亂拳打死老師傅,中國速度太快

在TikTok的特效菜單下,最近增加一個名叫“AI綠幕”(AIGreenscreen)的新選項。

點擊這個選項,然後在屏幕中間的對話框裡輸入一段文字描述,隻用不到5秒的時間,TikTok就可以根據文字描述生成一張豎版畫作,用作短視頻的背景:

圖片來源:矽星人截圖

TikTok用的這個文字轉圖片模型,還是非常簡單的。矽星人測試幾個含義大相徑庭的提示,生成的圖片可以說都十分的“迷幻",沒有任何寫實色彩。

但這並不是缺點缺點——正相反,生成結果具有非常強的水彩/油畫感覺,風格遷移(styletransfer)的痕跡明顯,而且用的顏色也都鮮亮明快,給人一種耳目一新的感受。

圖片來源:TechCrunch截圖

我特別想單獨說一下我自己生成的兩張圖片:

下圖左邊的提示字段是知名遊戲“最後生還者”。生成結果的辨識度太高,這不正是遊戲主角Ellie被泥漿血水浸濕的頭發嗎?

右圖更有意思,提示是“轟炸”:我完全沒有想到如此“不和諧”的字段,TikTok的模型居然生成的結果卻相當的“自洽”,特別是圖中的“轟炸機”反而看起來像是代表和平的“白鴿”——是否你也能讀出一點諷刺的意味?

圖片來源:矽星人截圖

當然話說回來,這些隻是我自己的解讀和感受,絕不可能是模型的“本意”。但是有趣的藝術作品不正應該是這樣嘛,讓人能夠發現一些巧妙的“彩蛋”,甚至浮想聯翩,解讀出另外的含義。

從這一角度,我還是非常認可TikTok目前部署的這個模型的。

模型的質量也值得一提。TheVerge、TechCrunch等美國媒體測試一些特殊的敏感字段,AI綠幕生成結果更加抽象,顯示出字節部署的模型在爭議字段上可能已經做出提前規避。

要知道AI文字生成圖片本來就不是簡單的技術,避免爭議/道德風險更是一項相當復雜的工作。

圖片來源:TheVerge截圖

正如文章前面提到,谷歌、OpenAI等巨頭公司和知名機構開發的AI文字生成圖片模型,目前都處於剛剛發佈或者小范圍測試,還在“紙上談兵”的階段。

這邊TikTok不僅很快跟進推出同類模型,更厲害的是已經將其投放到全球十億用戶量級別的產品裡。

本來以為AI藝術創作的潮流還是幾個矽谷大廠在引領,沒想到字節跳動居然“亂拳打死老師傅”——必須給中國互聯網科技公司的工作速度和質量點贊。

AI創作成潮流,矽谷大廠擠破頭

早在2020年,全球知名的人工智能基礎科研機構OpenAI發佈一個名為GPT-3語言模型。當時OpenAI的論文題為“LanguageModelsareFew-ShotLearners”,直接點出超大規模語言模型在多種非訓練人物上具備強大、快速的學習和掌握能力。

GPT-3也完全沒令人失望,在小范圍開放測試API之後,外界人士用它開發出各種各樣神奇的demo,展示寫段子、翻譯公式、解數學題、完成用戶界面設計、生成財務報表等能力。

“AI文字生成圖片”也是這些能力的其中一項。

圖片來源:矽星人

包括 OpenAI、谷歌、Midjourney、StabilityAI 等一眾大小公司,已經開發出多個文字轉圖片生成模型,展示出神經網絡模型具備令人驚訝的藝術創作能力。

 AI文字轉圖片生成技術開始得到公眾關註,到今天各路大廠和小公司擠破頭也要摻和,各種不開放的、的、收費和免費的模型層出不窮……也就過去一年左右的時間。

在這些模型當中,OpenAI的DALL·E是最著名的一款。該模型一代於2021年推出,今年剛剛更新到二代。用戶隻需提供自然語言描述,模型就能夠生成非常寫實 (photorealisitic) 的圖片。

圖片來源:OpenAI

除從零開始生成全新照片,DALL·E2還有更多功能,適合現實中多種藝術工作場景。

比如它的編輯能力,可以在一張已經存在的照片中,在用戶任選的位置“刪除”或者“添加”物體,並且編輯後的效果仍然很寫實:

圖示:在照片的不同位置添加“火烈鳥”。圖片來源:OpenAI

再比如 DALL·E2還具備“啟發”的能力,能夠根據一張已經給定的圖片,生成風格近相同的新照片:

圖片來源:OpenAI

順便一提:有個跟OpenAI沒關系的第三方開發者,自己仿著DALL·E做一個圖片生成模型,還給免費開放,取名為DALL·Emini。

結果這個“仿制品”比正品還受歡迎,在社交網絡Twitter上專門搬運這個模型生成的奇怪圖片的賬號,粉絲量都破百萬。甚至逼得OpenAI專門出來澄清跟它沒關系,要求開發者做出改變。現在這個免費小工具已經改名為 Craiyon。

(聽說此事之後,粉絲們還做一張梗圖,嘲笑OpenAI那邊還在控制測試權限,這邊DALL·Emini早就給全網玩嗨……)

圖片來源:FALSEKNEES

而在矽谷大廠的行列當中,現在谷歌是已知動作最快的,在DALL·E2出來不久後也發佈自己的模型,名為Imagen。

就像DALL·E的根源是語言超大模型GPT-3,Imagen的根源也是谷歌開發的泛用型超大語言模型T5。至於Imagen的這個命名,其實是圖片(image)+生成(generate)的混成詞。

圖片來源:GoogleResearch

雖然做的比DALL·E晚,同樣作為矽谷知名AI研究型公司的谷歌,還是非常不服OpenAI的,宣稱找人做一堆同類模型的盲測,結果是受試者更喜歡Imagen生成的結果,認為其在“生成質量”和“文字描述還原度”上都更勝一籌。

——當然,究竟是DALL·E2和Imagen誰的生成結果更好,還是一個很主觀的,見仁見智的事情。在技術實現上,這兩傢其實大同小異,都是用Diffusion(擴散)模型生成,然後再用Super-Resolution(超分辨率)技術來讓生成結果更加清晰。

圖片來源:GoogleResearch

還有更多規模更小的新創公司也在做AI圖片生成和藝術創作這件事。

其中一傢比較有意思的公司就是Midjourney,其創始人是原知名動作感應技術公司LeapMotion創始人DavidHolz;公司的投資人和顧問團隊更是相當強大,都是蘋果、特斯拉、AMD、GitHub等知名公司的核心人物。

Midjourney跟OpenAI、谷歌的寫實方向背道而馳,而是在抽象、藝術性、獨特風格之間尋求某種巧妙的結合點,這也是這傢公司和其模型比較特別之處。另外Midjourney開放模型技術的做法也很“年輕化”,不是發佈API和文檔,而是把服務接口做到聊天軟件Discord裡。

圖片來源:Midjourney

說完這些比較知名的公司,再來看一傢名不見經傳,但是和TikTok一樣出手極快的美國公司:StabilityAI。

這傢公司總部位於矽谷LosAltos,在上周剛剛發佈一個可以免費使用的AI圖片生成產品StableDiffusion。

圖片來源:StabilityAI

StableDiffusion和前面介紹的幾個寫實派模型沒有太大不同。但是和產品、公司名稱裡的“穩定”正相反,這個模型在有害/爭議字段的處理上,可以說完全沒有任何作為。而又因為產品是完全免費提供給公眾的,已經有很多用戶用它制作deepfake、暴力、恐怖主義、虛假新聞圖片等有害的內容……

最近大半年,AI圖片生成已經成為一個名副其實的科技行業“熱詞”,隻是沒想到,OpenAI和谷歌做這麼多年,卻被 TikTok給悄無聲息地跑贏。接下來,應該會有更多的科技公司也參與其中,不少全民應用背後的大廠估計又要忙活著把這項技術加到產品中。


相關推薦

2022-10-11

新研究中心聯席主任、研究員盤和林告訴澎湃新聞記者。大廠眾籌業務今何在?有人撤退有人入局京東眾籌率先宣佈關閉之後,其他大廠的眾籌業務還在嗎?根據澎湃新聞記者搜索,蘇寧的眾籌業務入口似乎已經“消失”。10月1

2023-12-01

們反復琢磨。低價、野路子、群眾路線,拼多多用這三通亂拳擊倒老前輩,質疑拼多多,理解拼多多,成為拼多多,正在成為如今電商行業最流行的成長故事。1低價打敗一切拼多多聯席 CEO趙佳臻曾表示:“我們應對競爭的思路

2022-10-12

,她用不到2500元買下標價近2800元的新空調。次日,拆機師傅上門拆卸舊空調,回收商傢是嗨回收。之後,新空調送貨到傢。第三天,空調品牌廠的安裝師傅上門裝好新空調。目前,全國各地正在陸續實施新一輪傢電“以舊換新

2023-04-23

實驗室邱錫鵬團隊研發,2月20日正式發佈。當時國內一眾大廠還在陸續高調官宣要造ChatGPT,誰都沒想到它就這麼一聲不吭地殺出來。所以盡管MOSS的參數量比ChatGPT小一個量級,大傢還是蜂擁而上,把服務器都給擠爆。而發佈沒過

2022-11-21

日經亞洲報道:"中國在一個專註於半導體的著名國際學術會議上提交最多數量的研究論文,強調中國在該領域日益增長的影響力,並將美國擠到第二位。"國際固態電路會議(ISSCC)的委員會於11月16日在韓國

2023-02-22

,AI芯片為代表的底層硬科技的突破更為關鍵。米磊用“亂拳打死老師傅”形容這波AI技術進展——它相當於在算法進展不大的情況下純粹堆算力和數據的產物。事實上,在ChatGPT火爆之前,並沒有太多人看好大模型這條路徑,但

2022-09-26

美國互聯網圈,因為一傢強勢崛起的全球化新貴企業——TikTok,而頻頻地站到同個陣營裡,共同抵制聲討這款短視頻應用的快速發展。似乎隻要提及這傢企業的名字,就能踩到美國科技公司的痛腳,挑起他們對未來互聯網競爭的

2023-02-13

經營案,楊某姐弟召集代理人員,在網上發廣告稱可以代發論文,仿冒正規期刊進行征稿。他們從中收取200元至1000元不等的版面費”,並委托無資質的小型印刷廠,私自印刷假冒刊物。他們甚至制作山寨網站,實現論文上網,

2024-06-11

要啟動競業協議。也碰巧是在那個時候,一個對我很好的老師說,他有個讀博的名額可以給我。我覺得人生很重要的一點就是保留變化,讀博可以讓我再選擇一次就業,那種未知而充滿希望的感覺很吸引我,我也想要再去體驗社

2023-04-26

大傢還記得一個月前,周受資出席Tiktok聽證會那檔子事兒嗎?萬萬沒想到,後來Tiktok旗下一個叫Lemon8的APP,卻成這個故事的主角。因為怕失去沖浪的 “ 快樂老傢 ” ,網友互相安利Lemon8,

2023-01-09

的紐約市,正式頒佈‘ChatGPT禁令’。也就是說,不管是老師還是學生,都無法在紐約市公立學校的網絡和設備上使用ChatGPT。最近,洛杉磯和巴爾的摩的學區也加入到這個行列。紐約市教育局發言人Jenna Lyle表示,雖然ChatGPT可以

2022-10-14

ao而最近,在經濟下行的壓力之下,Meta、Google、亞馬遜等矽谷大廠們不僅紛紛加入到“語言藝術傢“的行列之中,在實操層面各種花活更是層出不窮:冷凍招聘、業務重組、內部轉組、績效考核、撕offer……雖然大傢都閉口不談

2023-02-01

一名Google員工,除Google員工的身份之外,她同時也是一名Tiktok博主:她會在Tiktok上記錄自己在Google內部工作的日常,包括Google內部以各種美食著稱的食堂,以及各種甜點下午茶等。也收獲眾多粉絲。但這種內容在上個月的一條視

2022-06-24

榜單第一。圖源:快手鏡相但2018年後,Kwai急轉直下,被TikTok後發趕超。data.ai數據顯示,2018年8月,Kwai在印度日下載量減少到1萬;12月Kwai在韓國市場Google應用商店裡滑至30名左右,甚至在其他國傢和地區應用排行榜中跌至200名開