生成式人工智能服務可以生成高質量的視覺拼湊,但通常相當緩慢。麻省理工學院和Adobe公司的研究人員針對這一耗時問題開發出一種潛在的解決方案,即一種對圖像質量影響最小的全新超快速圖像生成方法。該技術每秒可生成約20幅圖像。
圖像生成人工智能通常采用一種稱為擴散的過程,通過幾個采樣步驟來完善視覺輸出,以達到最終希望"逼真"的結果。研究人員表示,擴散模型可以生成高質量的圖像,但需要數十次前向傳遞。
Adobe 研究中心和麻省理工學院的專傢們正在引入一種名為"分佈匹配蒸餾"(DMD)的技術。這一程序將多步擴散模型簡化為一步圖像生成解決方案。由此產生的模型可以生成與Stable Diffusion 1.5 等"傳統"擴散模型相當的圖像,但速度要快上幾個數量級。
"我們的核心理念是訓練兩個擴散模型,不僅能估計目標真實分佈的得分函數,還能估計假分佈的得分函數。"研究人員稱,他們的模型可以在現代 GPU 硬件上每秒生成 20 幅圖像。
上面的視頻短片重點介紹 DMD 與 Stable Diffusion 1.5 相比的圖像生成能力。標清每幅圖像需要 1.4 秒,而 DMD 隻需幾分之一秒就能生成類似的圖像。雖然在質量和性能之間有所權衡,但最終結果仍在普通用戶可接受的范圍之內。
該團隊發表的關於新渲染方法的文章展示使用 DMD 生成圖像結果的更多示例。它比較穩定擴散和 DMD,同時提供生成圖像的重要文字提示。主題包括通過虛擬數碼單反相機鏡頭取景的一隻狗、多洛米蒂山脈、森林中一隻神奇的鹿、一隻鸚鵡寶寶的 3D 渲染、獨角獸、胡須、汽車、貓,甚至更多的狗。
分佈匹配蒸餾法並不是第一種用於生成人工智能圖像的單步方法。Stability AI 公司開發一種被稱為逆向擴散蒸餾(ADD)的技術,用於實時生成 100 萬像素的圖像。該公司通過 ADD 訓練其 SDXL Turbo 模型,在單個 NVIDIA A100 AI GPU 加速器上實現僅 207 毫秒的圖像生成速度。Stability 的 ADD 采用與麻省理工學院的 DMD 類似的方法。