谷歌周四介紹瞭Parti文本轉圖像生成器項目的最新進展,可知通過200億輸入的訓練,其已能夠創建出栩栩如生的圖像。不過為瞭避免AI數據集中存在的偏見風險,該公司並未通過公眾發佈的文本來展開訓練。
(來自:Google Parti)
據悉,Parti 全稱為“Pathways Autoregressive Text-to-Image”(路徑自回歸文本轉圖像)。隨著可使用參數數量的增長,其輸出的圖像也能夠更加逼真。
本例中,Parti 在生成最終圖像之前,已經研究瞭 200 億量級的參數。相比之下,Imagen 是 Google 設計用於擴散學習的文本轉圖像生成器。
工作期間,它會通過向圖像添加“噪聲”來訓練計算機模型,讓它初步生成模糊的靜態圖像,然後模型會通過學習來嘗試解碼靜態圖像。
隨著模型的改進,系統可以將一系列隨機點,逐漸變成我們最終看到的栩栩如生的重新生成圖像。
最後,除瞭 Parti 和 Imagen,我們還有聽說過其它文本轉圖像模型 —— 比如 Dall-E、VQ-GAN+CLIP 和 Latent Diffusion Models 。