Stability AI推出Stable Diffusion 3 提示文本理解更好、圖像質量更強


2月23日,著名大模型開源平臺stability.ai在官網推出——StableDiffusion3。該版本與StableDiffusion2相比,在文本語義理解、色彩飽和度、圖像構圖、分辨率、類型、質感、對比度等方面大幅度增強,可對標閉源模型Midjourney。

Stable Diffusion 3的參數在8億——80億之間,也就是說Stable Diffusion 3可能是專為移動設備開發的,AI算力消耗將更低,推理速度卻更快。

目前,Stable Diffusion 3支持申請使用,未來會擴大測試范圍。

申請地址:https://stability.ai/stablediffusion3


stability.ai沒有過多的介紹Stable Diffusion 3的技術內容,但指出其核心架構使用Transformer和Flow FMatching(簡稱“FM”)。

Transformer大傢都很熟悉,ChatGPT、T5 、BERT等很多著名模型都是基於該架構開發的。

而FM是Meta AI和魏茨曼科學研究所在2022年10月發佈的,一種全新高效建模、訓練技術概念。

Flow Matching論文地址:https://arxiv.org/abs/2210.02747

Flow Matching簡單介紹

目前,很多文生圖模型使用的是CNF(連續正規化流動)訓練方法,主要使用常微分方程對流動進行建模,實現從一種已知分佈到目標分佈的平滑映射。

但由於訓練過程需要進行大量的微分方程模擬,會導致算力成本高、模型設計復雜、可解釋性差等缺點

FM則是放棄微分方程的直接模擬,而是通過回歸固定條件概率軌跡來實現無模擬訓練。研究人員設計條件概率分佈與向量場的概念,利用邊緣分佈的結合可以建立總體目標概率軌跡與向量場,從而消除模擬過程對梯度計算的影響


1)條件概率路徑構建:FM需要給出一個目標概率路徑,該路徑從簡單分佈演變到逼近數據分佈。然後利用條件概率路徑構建目標路徑,這樣每個樣本有一個對應的條件路徑。

2)變換層:構成FM的基本單元,每個變換層都是可逆的。這意味著從輸入到輸出的每一步映射都可以精確地反轉,從而允許從目標分佈反推到原始分佈。

3)耦合層:將輸入分成兩部分,對其中一部分應用變換,而變換函數可以是任意的神經網絡,其參數由另一部分決定,保證變換的可逆性。

目前,FM技術已在圖像生成與超分辨率、圖像理解、圖像修復與填充、條件圖像生成、圖像風格遷移與合成、視頻處理等領域得到廣泛應用。

Stable Diffusion 3案例展示

本次的發佈頁面也是由Stable Diffusion 3生成的,提示詞:史詩般的動漫藝術風格,一位巫師站在夜間的山頂上,向黑暗的天空施放咒語,上面寫著由彩色能量生成的“Stable Diffusion 3”文字


教室桌子上有一個紅蘋果,電影風格,背景的黑板上用粉筆寫著“要麼做大,要麼回傢”


一名宇航員騎著一隻穿著蓬蓬裙的豬,撐著一把粉色的傘,豬旁邊的地上有一隻戴著高帽的知更鳥,角落裡寫著"Stable Diffusion"的字樣。


一隻變色龍,黑色背景,攝影風格。


一輛跑車的夜間照片,側面寫有“SD3”字樣,汽車在賽道上高速行駛,巨大的路標上寫著“更快”的文字。


波浪沖擊蘇格蘭燈塔的魚眼鏡頭照片,黑色波浪。



相關推薦

2024-02-15

StabilityAI的最新圖像生成模型StableCascade承諾比其業界領先的前身StableDiffusion更快、更強大,而StableDiffusion是許多其他文本到圖像生成AI工具的基礎。Stable Cascade 可以生成照片,並對所創建的圖片進行修改,或嘗試提高現有圖片的

2022-09-20

有 13.9% 的人認為這些系統理解世界的程度很高。對此,Stability.AI 的首席執行官 Emad Mostique 也回應稱,我投的是“並不多”,並承認“它們隻是拼圖上的一小塊。”來自科學機構 New Science 的 Alexey Guzey 也有與 Marcus 類似的發現,

2024-03-27

蒸餾法並不是第一種用於生成人工智能圖像的單步方法。Stability AI 公司開發一種被稱為逆向擴散蒸餾(ADD)的技術,用於實時生成 100 萬像素的圖像。該公司通過 ADD 訓練其 SDXL Turbo 模型,在單個 NVIDIA A100 AI GPU 加速器上實現僅 2

2022-10-21

一傢AI公司融資的消息吸引不少人的目光。這傢公司名叫StabilityAI,成立於2020年,在拿到本輪1.01億美元的融資之後成為新晉獨角獸,估值高達10億美元。原標題:價值1億美金時,Stable Diffusion背後的團隊開始互撕,誰才是真官方

2023-02-13

,麥柯南成為集體訴訟的三名原告之一,起訴對象包括:Stability AI 是一傢總部位於倫敦的公司,該公司與他人共同開發 Stable Diffusion;Midjourney,一傢位於舊金山的初創公司,使用 Stable Diffusion 為基於文本的圖像創建提供支持;De

2023-01-16

滿已久的藝術傢們,終於動真格!這次,藝術傢們聯合對StabilityAl、DeviantArt和Midjourney發起集體訴訟,指控其訓練數據侵害廣大藝術傢的版權。消息傳出後可以說一石激起千層浪,Reddit熱度瞬間達到1700+。然而,當網友們對訴訟內

2024-03-24

3月23日消息,總部位於英國倫敦的AI圖像生成頭部玩傢Stability AI突然宣佈公司 CEO Emad Mostaque 辭職。隨後,Emad Mostaque 在社媒平臺 X 上宣佈,自己離職後將致力於去中心化人工智能(DecentralizedAI)。Stability AI 公司在官網博客文章中

2024-03-23

好突然!就在今天,StabilityAICEO宣佈辭職。EmadMostaque,既不再擔任CEO,公司董事會也退出。消息一出,大夥都無比震驚。StabilityAI再也不stable。據悉,首席運營官Shan Shan Wong和首席技術官Christian Laforte將擔任臨時CEO。更早之前,Stab

2022-09-19

AI 創建的藝術品,我可能都無法找到自己創建的作品”。Stability.AI 公司在  LAION-5B 數據集(由德國非營利組織 LAION 匯編)上對模型進行培訓,並創建 Stable Diffusion。技術專傢兼作傢安迪·拜奧 (Andy Baio) 在下載並分析部分 Stable

2024-09-06

文本描述生成和編輯圖像。它是首款使用最新、最先進的Stability AI模型Stable Diffusion 3.0的PC應用程序。聯想獨有的內部圖像生成應用程序,免費、簡單易用和功能強大。Creator Zone在預裝或可在部分聯想AI PC上下載,無需訂閱即可使

2024-03-25

nAI之後,又一傢明星創業公司從內部崩塌。3月23日上午,StabilityAI突然發佈一項公告,宣佈公司CEOEmadMostaque辭職。Mostaque離職後,首席運營官ShanShanWong和首席技術官ChtistianLaforte為該公司的臨時聯席首席執行官。根據Mostaque的自述

2023-04-20

三(19日),開發AI圖像生成工具StableDiffusion的創業公司StabilityAI宣佈,發佈並開源該團隊訓練的大語言模型StableLM。根據該團隊的公告,目前StableLM的“阿爾法版本”中擁有30億和70億參數的模型已經可以從GitHub等開源平臺上下載

2024-04-25

快科技4月24日消息,Adobe Photoshop的最新測試版現已引入一項革命性的功能,允許用戶通過簡單的文本提示,利用人工智能技術生成圖像。該功能的核心在於Adobe新發佈的生成式AI模型系列Firefly Image 3。這一模型系列在圖像生成方

2023-10-31

回,但很可能會被重新提起訴訟。值得註意的是,針對 Stability AI 公司的直接侵權索賠被允許繼續進行,理由是該公司在創建 Stable Diffusion 時未經許可使用受版權保護的圖片。Stability 公司否認將這些圖片存儲並納入其人工智能系