文本-圖像人工智能系統目前在能力和受歡迎程度上都在蓬勃發展,還有什麼比它們出現在世界最熱門的應用程序中更好的證明?那就是TikTok。這個視頻平臺最近增加一種新的效果,它稱之為"人工智能綠屏",允許用戶輸入文字提示,然後軟件會生成一個圖像。這張圖片隨後可以作為視頻的背景--對創作者來說可能是一個非常有用的工具。
與Google的Imagen、OpenAI的DALL-E 2或Midjourney的同名軟件等最先進的文本到圖像模型相比,TikTok系統的輸出相當基本。它隻創建相當抽象的圖像;TikTok建議的提示如"海洋中的宇航員"和"鮮花星系"的案例就反映這一做法。相比之下,其他模型既能產生逼真的圖像,也能產生復雜而連貫的插圖,看起來像是人類繪制或畫的。
不過,TikTok模型的局限性很可能是故意的。首先,更先進的模型需要更強的計算能力,對該公司來說,這將是昂貴和資源密集型的實施。其次,TikTok有超過10億的用戶,讓所有這些人有能力創造他們能想象的任何東西的逼真圖像,幾乎能夠肯定又會讓一些人產生一些不安的想法。
在媒體測試其模型創造裸體和血腥的能力時,文本到圖像生成器往往會對這兩種來自用戶的意圖施加限制。該模型輸出的抽象性質意味著帶有挑釁性語言的提示隻能產生一些無意義的漩渦。
同樣,涉及裸體的要求隻產生一些合適的顏色,但不會有什麼讓人臉紅的內容出現。
TikTok的"人工智能綠屏"的出現值得註意的是,它顯示這項技術進入主流的速度正不斷提升。文本到圖像的人工智能的最新發展周期可以說始於2021年,OpenAI最初發佈DALL-E。不到兩年後,這項技術已經通過TikTok這樣的應用程序進入數百萬人的手中。