研究人員嘗試用穩定擴散方法壓縮圖像 結果竟然優於JPEG


上周,瑞士軟件工程師MatthiasBühlmann發現——流行的圖像合成模型“StableDiffusion”,可實現較現有的JPEG或WebP格式更高的位圖圖像壓縮比、且視覺偽影也更少。即便如此,StableDiffusion也不是那麼完美。作為一種AI圖像合成模型,其通常根據文本描述(所謂的“提示”)而生成圖像。

1.jpg

用鋸齒彩塊來描繪的圖像壓縮概念(via ArsTechnica)

AI 模型通過研究從互聯網上提取的數百萬張圖像來學習這種能力,在訓練過程中,模型在圖像和相關詞之間建立統計關聯。

然後對每張圖像的關鍵信息添加更小的“表示”和賦予“權重”,後者代表 AI 圖像模型所掌握的數學值。

當穩定擴散分析、並將圖像“壓縮”為權重形式時,它們就處在所謂的“潛在空間”中 —— 它們以一種模糊潛力的形式存在,且能夠在解碼時於圖像中復現。

這項研究中用到的 Stable Diffusion 1.4,其權重文件大小約為 4GB —— 代表該 AI 模型掌握的數億張圖像的知識。

2.jpg

使用穩定擴散壓縮圖像的示例

盡管大多數人使用帶文本提示的穩定擴散,但 Bühlmann 還是斬斷文本編碼器、而是強制通過穩定擴散圖像編碼器來處理。

該過程將低精度的 512×512 圖像、轉換為更高精度的 64×64 潛在圖像空間表示。此時圖像存在的數據量較原始文件小得多,但仍可將之解碼擴展回 512×512 圖像、並獲得相當良好的結果。

測試期間,Bühlmann 發現使用穩定擴散壓縮的新圖像,可在更高的壓縮比(更小的文件大小)下,主觀上看起來較 JPEG 或 WebP 更佳。

以這張美洲鴕的照片為例,其原始文件大小為 768 KB 。盡管 JPEG / WebP 格式分別可壓縮到 5.68 和 5.71 KB,但穩定擴散方法可進一步壓縮到 4.98 KB 。

3.jpg

與對照的圖像壓縮格式相比,穩定擴散似乎具有更多可分辨的細節、以及明顯更少的壓縮偽影。

不過 Bühlmann 也指出現階段的一個很大局限性 —— 它不太適合面容或文本,且在某些情況下會讓解碼圖像中的細節特征產生“幻象”。

這些特征可能在源圖像中並不存在,更別提解碼需要動用高達 4GB 的穩定擴散權重文件、以及額外的解碼時間。

即便如此,這種非常規穩定擴散用例,還是較實際的解決方案更加有趣,甚至有望開辟圖像合成模型的未來新用途。

感興趣的朋友,可移步至 Google Colab 查看 Bühlmann 的示例代碼,或在有關 Towards AI 的帖子中找到實驗中的更多技術細節。


相關推薦

2023-03-09

工智能重建的圖像(下行)與研究參與者實際看到的圖像研究人員表示,隨著該技術的發展,有望將其應用於多種場景,比如探索各種動物如何感知世界,甚至記錄人類夢境、幫助癱瘓者與他人交流。相關研究預印本已於去年發

2023-03-10

描圖像,AI就能夠重建人們看到的真實景象相近的圖像。研究人員表示,隨著AI技術的發展有望將其應用於多種場景,比如探索各種動物如何感知世界,甚至記錄人類夢境、幫助癱瘓者與他人交流。如今許多實驗室都在嘗試通過AI

2024-03-27

視覺拼湊,但通常相當緩慢。麻省理工學院和Adobe公司的研究人員針對這一耗時問題開發出一種潛在的解決方案,即一種對圖像質量影響最小的全新超快速圖像生成方法。該技術每秒可生成約20幅圖像。圖像生成人工智能通常采

2023-05-27

功應用於上述圖像重建過程。據解,穩定擴散”是由德國研究人員開發,與其他文本到圖像的AI生成”模型類似,都是在接受與文本描述相關的數十億張圖像訓練後,從文本提示中生成新圖像。科學傢表示,新研究有一天可能會

2024-04-04

計算中間結果以及使用更高級色彩空間的可能性。所有新方法都經過精心設計,以使用傳統的 8 位 JPEG 形式,因此新壓縮的圖像與現有的 JPEG 瀏覽器(如瀏覽器、圖像處理軟件等)兼容。據Google統計,Jpegli 可以比傳統的 JPEG 編

2023-02-06

研究人員發現,流行的圖片創作模型很容易被指示生成可識別的真人圖片,可能會危及相關聯人的隱私。一些提示導致人工智能復制一張圖片,而不是重繪完全不同的內容。這些重新制作的圖片還可能包含受版權保護的材料。但

2022-09-25

的火車"和"橋下的河流",是使用麻省理工學院研究人員開發的新方法生成的。為生成具有更好理解力的更復雜的圖像,來自麻省理工學院計算機科學和人工智能實驗室(CSAIL)的科學傢們從不同的角度對典型的模型進

2023-10-31

工智能系統。據稱,DeviantArt 的 DreamUp 和 Midjourney 就采用穩定擴散技術。藝術傢面臨的一個主要障礙是,訓練數據集在很大程度上是一個黑箱。在駁回侵權索賠時,Orrick 寫道,原告的理論"不清楚"是否有存儲在 Stable Diffusi

2023-01-26

甚至會從一個詞中返回高質量的圖像,這與通常附加在用穩定擴散法生成的高質量圖像上的更復雜的提示不同。當然,這還需要測試和證明,但Shutter所推銷的是一種便利的理念,即你現在可以進入一個一站式商店來滿足所有的

2024-02-06

JPEGXL圖像格式是一種免版稅標準,同時支持有損和無損壓縮。該標準旨在取代舊的JPEG格式。然而,盡管開發者對此興趣濃厚,瀏覽器公司似乎對實施該標準猶豫不決。JPEG XL"圖像編碼系統"ISO 標準是一種新的通用圖像格式

2022-07-10

世界上最好用的壓縮軟件是什麼?微信。這個段子想必很多人都聽過。一張幾兆的圖片,經微信一發,立馬降到幾百kb。雖說這是個吐槽,但u1s1,圖片視頻壓縮其實是一項非常必要的技術。比如視頻通話、傳輸大量圖片時,如果

2023-11-26

縮打開現代深度網絡的黑盒。Transformer 模型和壓縮。去噪擴散模型和壓縮。促進低維度的度量:稀疏性和率下降。展開優化:一個用於網絡解釋和設計的統一范式。詳情參看原論文。這項研究的目標和貢獻他們搭建理論和實踐之

2024-02-18

畫面用作參照,努力通過調整命令提示和控制相機動作,嘗試使其他模型產出與SORA類似的效果。相比之下,SORA在處理較長視頻場景方面的表現顯著更出色。看到如此震撼的效果,也難怪業內人士都在感嘆,SORA在AI視頻制作領域

2024-02-18

畫面用作參照,努力通過調整命令提示和控制相機動作,嘗試使其他模型產出與SORA類似的效果。相比之下,SORA在處理較長視頻場景方面的表現顯著更出色。看到如此震撼的效果,也難怪業內人士都在感嘆,SORA在AI視頻制作領域