2月23日,著名大模型開源平臺stability.ai在官網推出——StableDiffusion3。該版本與StableDiffusion2相比,在文本語義理解、色彩飽和度、圖像構圖、分辨率、類型、質感、對比度等方面大幅度增強,可對標閉源模型Midjourney。
Stable Diffusion 3的參數在8億——80億之間,也就是說Stable Diffusion 3可能是專為移動設備開發的,AI算力消耗將更低,推理速度卻更快。
目前,Stable Diffusion 3支持申請使用,未來會擴大測試范圍。
申請地址:https://stability.ai/stablediffusion3
stability.ai沒有過多的介紹Stable Diffusion 3的技術內容,但指出其核心架構使用Transformer和Flow FMatching(簡稱“FM”)。
Transformer大傢都很熟悉,ChatGPT、T5 、BERT等很多著名模型都是基於該架構開發的。
而FM是Meta AI和魏茨曼科學研究所在2022年10月發佈的,一種全新高效建模、訓練技術概念。
Flow Matching論文地址:https://arxiv.org/abs/2210.02747
Flow Matching簡單介紹
目前,很多文生圖模型使用的是CNF(連續正規化流動)訓練方法,主要使用常微分方程對流動進行建模,實現從一種已知分佈到目標分佈的平滑映射。
但由於訓練過程需要進行大量的微分方程模擬,會導致算力成本高、模型設計復雜、可解釋性差等缺點。
FM則是放棄微分方程的直接模擬,而是通過回歸固定條件概率軌跡來實現無模擬訓練。研究人員設計條件概率分佈與向量場的概念,利用邊緣分佈的結合可以建立總體目標概率軌跡與向量場,從而消除模擬過程對梯度計算的影響。
1)條件概率路徑構建:FM需要給出一個目標概率路徑,該路徑從簡單分佈演變到逼近數據分佈。然後利用條件概率路徑構建目標路徑,這樣每個樣本有一個對應的條件路徑。
2)變換層:構成FM的基本單元,每個變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉,從而允許從目標分佈反推到原始分佈。
3)耦合層:將輸入分成兩部分,對其中一部分應用變換,而變換函數可以是任意的神經網絡,其參數由另一部分決定,保證變換的可逆性。
目前,FM技術已在圖像生成與超分辨率、圖像理解、圖像修復與填充、條件圖像生成、圖像風格遷移與合成、視頻處理等領域得到廣泛應用。
Stable Diffusion 3案例展示
本次的發佈頁面也是由Stable Diffusion 3生成的,提示詞:史詩般的動漫藝術風格,一位巫師站在夜間的山頂上,向黑暗的天空施放咒語,上面寫著由彩色能量生成的“Stable Diffusion 3”文字
教室桌子上有一個紅蘋果,電影風格,背景的黑板上用粉筆寫著“要麼做大,要麼回傢”
一名宇航員騎著一隻穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一隻戴著高帽的知更鳥,角落裡寫著"Stable Diffusion"的字樣。
一隻變色龍,黑色背景,攝影風格。
一輛跑車的夜間照片,側面寫有“SD3”字樣,汽車在賽道上高速行駛,巨大的路標上寫著“更快”的文字。
波浪沖擊蘇格蘭燈塔的魚眼鏡頭照片,黑色波浪。