谷歌Parti生成器依靠200億參數將文本轉成栩栩如生的圖像


谷歌周四介紹瞭Parti文本轉圖像生成器項目的最新進展,可知通過200億輸入的訓練,其已能夠創建出栩栩如生的圖像。不過為瞭避免AI數據集中存在的偏見風險,該公司並未通過公眾發佈的文本來展開訓練。

Google Parti.jpg

(來自:Google Parti)

據悉,Parti 全稱為“Pathways Autoregressive Text-to-Image”(路徑自回歸文本轉圖像)。隨著可使用參數數量的增長,其輸出的圖像也能夠更加逼真。

本例中,Parti 在生成最終圖像之前,已經研究瞭 200 億量級的參數。相比之下,Imagen 是 Google 設計用於擴散學習的文本轉圖像生成器。

工作期間,它會通過向圖像添加“噪聲”來訓練計算機模型,讓它初步生成模糊的靜態圖像,然後模型會通過學習來嘗試解碼靜態圖像。

隨著模型的改進,系統可以將一系列隨機點,逐漸變成我們最終看到的栩栩如生的重新生成圖像。

最後,除瞭 Parti 和 Imagen,我們還有聽說過其它文本轉圖像模型 —— 比如 Dall-E、VQ-GAN+CLIP 和 Latent Diffusion Models 。


相關推薦

2022-06-30

……把它給畫出來呢?(讀都讀不出來,還畫畫???)谷歌最新提出來的一個 AI——Parti,它就能輕松 hold 住這事。在把這個單詞“投喂”給 Parti 後,它就能有模有樣地生成多張合情合理的肺部疾病圖片:但這隻是 Parti 小試

2022-08-27

能讓指定物體“閃現”到你想要的場景中,動作表情也都栩栩如生。不止是動物,其他物體像墨鏡、書包、花瓶,也都能做出幾乎以假亂真的成品:屬於是發朋友圈也不會被別人看出破綻的那種。(手動狗頭)這個神奇的文字-

2022-08-01

tionforInfiniteVisualSynthesis”,引發熱議,通過該技術可以使文本自動生成圖像或者學習圖像生成擴張圖像等應用。•以往的OpenAI的DALL・E2、Google的Imagen或者Parti等都可以通過文本直接生成圖像,不過解像度隻有1024×1024級別,而“NUW

2024-02-27

谷歌發佈新交互模型——Genie,該技術將為AI領域帶來革命性的突破。據解,Genie共有110億個參數,能夠基於用戶輸入的一張圖片和提示詞,生成一款較為完整的2D平臺遊戲。Genie三由個部分組成:一個潛在動作模型,用於推斷每

2022-07-15

年來努力在日益擴大的高清晰度圖像集上訓練ML模型並對文本描述進行精心策劃,今天最先進的AI可以創造出逼真的圖像--無論你給它們提供什麼胡言亂語。不同的AI的具體創造過程是不同的。比如Google的Imagen使用擴散模型,它學

2023-03-31

以來最大的更新,Midjourney也成目前市面上最先進的AI圖像生成器之一。熱度還在繼續。最近,行業內又有一系列企業跟進推出AI繪畫功能。3月21日,微軟宣佈,必應搜索引擎接入OpenAI的DALL·E模型,將AI圖像生成功能引入新版必應

2023-04-24

司處於絕對的AI前沿,其一是與微軟合作的Open AI,其二是谷歌,其三是北京智源人工智能研究院。他認為,“關於誰領先誰落後,這可能是不斷變化的。總之這場競爭將非常激烈。”根據智源研究院官網介紹,2018年11月成立的智

2024-03-18

提示成為可能。然而,目前MM1的整體性能還沒有完全超過谷歌的Gemini和OpenAI的GPT-4,雖然MM1可能還不是絕對的領導者,但它仍然是蘋果在AI方面的一次重大飛躍。與此同時,蘋果公司還出手收購AI初創公司DarwinAI。DarwinAI以創建更

2022-10-07

內容生成AI進入視頻時代!Meta發佈“用嘴做視頻”僅一周,GoogleCEO劈柴哥接連派出兩名選手上場競爭。第一位ImagenVideo與Meta的Make-A-Video相比突出一個高清,能生成1280*768分辨率、每秒24幀的視頻片段。另一位選手Phenaki,則能根據2

2024-02-27

一聲炸雷深夜炸響,谷歌居然也開源LLM?!這次,重磅開源的Gemma有2B和7B兩種規模,並且采用與Gemini相同的研究和技術構建。有Gemini同源技術的加持,Gemma不僅在相同的規模下實現SOTA的性能。而且更令人印象深刻的是,還能在關

2023-04-13

成、圖像生成、多模態內容生成等能力與場景應用。超10億參數自研文生圖生成模型“秒畫”,支持二次元等多種生成風格。單卡A100支持,2秒生成1張512K分辨率的圖片。用戶可基於單卡A100自訓練。基於平臺發佈的模型,可設置to

2023-03-10

為應對新一輪技術競賽,Google還在不斷出後手。這兩天,一個名叫PaLM-E的大模型在AI學術圈瘋狂刷屏。它能隻需一句話,就讓機器人去廚房抽屜裡拿薯片。即便是中途幹擾它,它也會堅持執行任務。PaLM-E擁有5620億參數,是GPT-3的

2023-04-07

AI技術更廣泛地運用到工作、生活等場景中,在競爭中將谷歌公司遠遠拋在身後。先前,在微軟公司將ChatGPT模型融進搜索引擎“必應”的同一天,谷歌火速將仍處於內部測試階段的Bard進行線上和線下的產品展示。但沒想到Bard連

2024-05-08

作,他們可以獲得更大回報。今年2月份,數字廣告巨頭谷歌宣佈類似的人工智能廣告工具計劃。谷歌表示,公司人工智能工具制作的廣告將使用旗下人工智能研究實驗室DeepMind開發的SynthID水印技術進行標記。有Meta的圖像生成工