麻省理工學院研究人員開發出對圖像質量影響最小的超快速圖像生成方法


生成式人工智能服務可以生成高質量的視覺拼湊,但通常相當緩慢。麻省理工學院和Adobe公司的研究人員針對這一耗時問題開發出一種潛在的解決方案,即一種對圖像質量影響最小的全新超快速圖像生成方法。該技術每秒可生成約20幅圖像。

圖像生成人工智能通常采用一種稱為擴散的過程,通過幾個采樣步驟來完善視覺輸出,以達到最終希望"逼真"的結果。研究人員表示,擴散模型可以生成高質量的圖像,但需要數十次前向傳遞。

Adobe 研究中心和麻省理工學院的專傢們正在引入一種名為"分佈匹配蒸餾"(DMD)的技術。這一程序將多步擴散模型簡化為一步圖像生成解決方案。由此產生的模型可以生成與Stable Diffusion 1.5 等"傳統"擴散模型相當的圖像,但速度要快上幾個數量級。

"我們的核心理念是訓練兩個擴散模型,不僅能估計目標真實分佈的得分函數,還能估計假分佈的得分函數。"研究人員稱,他們的模型可以在現代 GPU 硬件上每秒生成 20 幅圖像。

上面的視頻短片重點介紹 DMD 與 Stable Diffusion 1.5 相比的圖像生成能力。標清每幅圖像需要 1.4 秒,而 DMD 隻需幾分之一秒就能生成類似的圖像。雖然在質量和性能之間有所權衡,但最終結果仍在普通用戶可接受的范圍之內。

2024-03-26-image-22-j.webp

該團隊發表的關於新渲染方法的文章展示使用 DMD 生成圖像結果的更多示例。它比較穩定擴散和 DMD,同時提供生成圖像的重要文字提示。主題包括通過虛擬數碼單反相機鏡頭取景的一隻狗、多洛米蒂山脈、森林中一隻神奇的鹿、一隻鸚鵡寶寶的 3D 渲染、獨角獸、胡須、汽車、貓,甚至更多的狗。

分佈匹配蒸餾法並不是第一種用於生成人工智能圖像的單步方法。Stability AI 公司開發一種被稱為逆向擴散蒸餾(ADD)的技術,用於實時生成 100 萬像素的圖像。該公司通過 ADD 訓練其 SDXL Turbo 模型,在單個 NVIDIA A100 AI GPU 加速器上實現僅 207 毫秒的圖像生成速度。Stability 的 ADD 采用與麻省理工學院的 DMD 類似的方法。


相關推薦

2022-09-25

顯示"橋上的火車"和"橋下的河流",是使用麻省理工學院研究人員開發的新方法生成的。為生成具有更好理解力的更復雜的圖像,來自麻省理工學院計算機科學和人工智能實驗室(CSAIL)的科學傢們從不同的角度對

2024-02-23

擬,而是通過回歸固定條件概率軌跡來實現無模擬訓練。研究人員設計條件概率分佈與向量場的概念,利用邊緣分佈的結合可以建立總體目標概率軌跡與向量場,從而消除模擬過程對梯度計算的影響。1)條件概率路徑構建:FM需要給

2023-01-17

視頻也成為一件大事,現在日本國傢信息學研究所 (NII)的研究人員開發一種AI算法,可以用AI反AI,識別換臉視頻。據解,國傢信息學研究所 (NII)的一個小組開發一種名為SYNTHETIQ VISION:合成視頻檢測器”的應用,可以自動判斷AI生

2022-08-23

時間的度量無法解釋許多圖像增強和模糊緩解技術,從而對圖像質量的判斷產生影響。VESA的ClearMR標準和認證計劃限制某些增強技術在測試期間的使用,讓消費者能夠公平地比較VESA認證的ClearMR顯示產品的運動模糊質量。隻有通

2022-09-21

實施 AI 解決方案、但又遇到諸多發展挑戰的企業紓困。麻省理工學院(MIT)的研究人員,最近還找到一種使用合成數據對圖像進行分類的方法。更何況各大自動駕駛汽車公司都在積極使用模擬數據,來填補其從道路上收集真實

2024-03-17

相同的轉運體,它們就會相互幹擾,因此不應同時處方。麻省理工學院和其他研究人員開發一種多管齊下的策略,以識別不同藥物所使用的轉運體。他們的方法同時利用組織模型和機器學習算法,已經發現一種常用抗生素和一種

2022-08-02

並且在傳感器市場上絕對占據主導地位。因此,圖像處理研究人員和公司有強烈的動機為這種類型的傳感器微調所有算法。例如,去噪通常是通過一些關於收集到的光子的統計數據的假設來完成的,這些光子不能直接應用於 Foveo

2023-01-15

通過解讀這些“改變”,就可以檢測到人體姿態。為此,研究人員開發一個“基於區域”的卷積神經網絡分析pipeline,該pipeline可以定位人體的各個部位。然後再將WiFi信號的相位和振幅映射到24個人體區域裡的坐標,實現最終的

2023-06-17

快科技6月16日消息,麻省理工學院的研究人員開發出一種超吸水性水凝膠,即使在沙漠條件下也能有效吸水。據解,這種材料吸收能力的關鍵是在水凝膠中加入一種特殊的鹽,即氯化鋰,它能夠吸收超過其質量10倍的水分。水凝

2023-05-27

功應用於上述圖像重建過程。據解,穩定擴散”是由德國研究人員開發,與其他文本到圖像的AI生成”模型類似,都是在接受與文本描述相關的數十億張圖像訓練後,從文本提示中生成新圖像。科學傢表示,新研究有一天可能會

2023-12-05

次,隻需幾周就能超過與其訓練相關的二氧化碳排放量。麻省理工學院林肯實驗室的研究科學傢維賈伊-加德帕利(Vijay Gadepally)說,從人工智能模型中獲利的公司必須對溫室氣體排放負責。

2024-02-20

Attention Is All You Need”的歷史重演。2017年6月12日,8位Google研究人員發表Attention is All You Need,大名鼎鼎的Transformer橫空出世。它的出現,讓NLP變天,成為自然語言領域的主流模型。論文地址:https://arxiv.org/pdf/1706.03762.pdf它完全摒棄

2023-11-24

,為全新的研究問題鋪平道路。在這一新的研究方法中,研究人員使用近2000塊楔形文字片的3D模型,其中包括MLU收藏的約50塊。據估計,全球仍然存在著大約一百萬塊這樣的片,其中許多都有5000多年的歷史,是人類最古老的文字

2024-02-15

影照片"生成的Stable Cascade圖像。新模型可在GitHub 上供研究人員使用,但不能用於商業用途。在Google甚至蘋果等公司發佈自己的圖像生成模型時,新模型也帶來更多選擇。與 Stability 的旗艦產品 Stable Diffusion 模型不同,Stable Cas