
允中 發自 凹非寺晉城泡沫板膠
量子位 | 公眾號 QbitAI
AI生成張圖片,你愿意等多久?
在主流擴散模型還在迭代中反復“磨嘰”、讓用戶盯著進度條發呆時,阿里智能引擎團隊直接把進度條“拉爆”了——
5秒鐘,到手4張2K清大圖。
針對Qwen新開源模型,將SOTA壓縮水平從80-100步前向計,驟降至2步(Step),速度提升整整40倍。
這意味著,此前像Qwen-Image這樣需要近分鐘才能吐出來的張圖片,現在真的成了“眨眼之間”。
目前,團隊已將相應的Checkpoint發布至HuggingFace和ModelScope平臺,歡迎開發者下載體驗:
HuggingFace:https://huggingface.co/Wuli-art/Qwen-Image-2512-Turbo-LoRA-2-StepsModelScope:https://www.modelscope.cn/models/Wuli-Art/Qwen-Image-2512-Turbo-LoRA-2-Steps同時,該模型已經集成到嗚哩AI平臺上(https://www.wuli.art)支持調用。
上述這種近乎“物理外掛”般的蒸餾案,究竟是怎么做到的?起來看。
傳統軌跡蒸餾的“細節困境”早期的蒸餾案[1,2],往往可以被歸納為軌跡蒸餾(Trajectory Distillation)。
具體來看,其本身主要思想是希望蒸餾后模型(student model)能夠模仿原模型(teacher model)在多步生成的路徑:
Progressive Distillation:student model需要直接對齊teacher model多次迭代后的輸出;Consistency Distillation:student model需要保證在teacher model的去噪軌跡上,輸出相同的結果。但在實踐中,這類法很難在低迭代步數下實現質量生成。突出的問題是生成圖像模糊晉城泡沫板膠,這現象在近期研究[3]中也得到了驗證:
問題根源在于約束式:軌跡蒸餾直接對student model的生成樣本x_{student}做約束,使其在特定距離度量下對齊teacher預測出的質量輸出x_{teacher},具體可以表達為:
其中$f(cdot)$是特定的距離函數,x_{teacher}是teacher經過多次去噪以后得到的輸出。
可以看出,這Loss對所有圖像patch視同仁,對于些特別細節的部分(如文字、人物五官)因占比低而學習不充分,student模型的細節常出現明顯扭曲。
從樣本空間到概率空間,直接降低缺陷樣本生成概率近期,基于概率空間的蒸餾案,在較少步數場景(4~8步)獲得了巨大的成功,基本解決了上述的細節丟失問題。
其中有影響力的工作之是DMD2法,這里具體的法案可以參考原論文[4]。
DMD2將約束從樣本空間轉換到了概率空間,其Loss設計為:
這是典型的Reverse-KL的蒸餾Loss,其本身有個顯著的特:
當p_{teacher}(x_0)to 0,如果p_{student}(x_0) > 0,那就會有Loss to +infty。
這意味著:對于student model生成的每張圖片,如果它不符真實圖片分布(p_{teacher}(x_0)to 0),就會致Loss爆炸。
因此,DMD2這類法的本質思想是——不直接告訴student“應該模仿什么”,而是讓student自己生成圖片晉城泡沫板膠,然后讓teacher model指“哪里不對”。
這種Reverse-KL Loss的設計,可以顯著提升生成圖片的細節和理,已經成為當下擴散步數蒸餾的主要策略。
熱啟動緩解分布退化盡管Reverse-KL可以顯著降低不理樣本的生成概率,其本身也存在著嚴重的mode-collapse和分布過于銳化的問題[5]。
具體表現在多樣降低,飽和度增加,形體增加等問題上。這些問題在2步蒸餾的設定下變得尤為突出。
為了緩解分布退化問題,常見做法是給模型個理的初始化[6]。在這里該團隊使用PCM[7]蒸餾進行模型熱啟動。
實驗表明,熱啟動后的模型的形體扭曲問題得到明顯。
△左圖為直接dmd訓練,右圖為經過PCM熱啟動后的2步模型,PVC管道管件粘結膠好的初始化可以降低不理構圖
對抗學習引入真實數據先驗如上所述,DMD2本質上是“學生生成—>教師指”,蒸餾過程不依賴真實數據,這種做法有優有劣:
優勢:大提升案普適(質量真實數據難獲取);局限:設定了上限——student永遠學習teacher的生成分布,法越teacher。同時由于loss設計的問題,DMD2蒸餾在質量細節紋理(如苔蘚、動物毛發等)上生成的果,往往差強人意,如下圖所示。
△左圖為Z-Image 50步生成,右圖為Z-Image-Turbo 8步生成,在苔蘚細節紋理上DMD2不夠細膩
奧力斯 PVC管道管件粘結膠價格 聯系人:王經理 手機:18231788377(微信同號) 地址:河北省任丘市北辛莊鄉南代河工業區/p>
為了增強2步student model在細節上的表現能力,阿里智能引擎團隊引入了對抗學習(GAN)來進步提升監督果。
GAN的Loss可以拆解為:
生成Loss(讓生成圖騙過判別器):晉城泡沫板膠
判別Loss(區分真假圖):
這里x_0是student生成的圖片,x_{real}是訓練集中引入的真實數據,D(cdot)是判別器根據輸入樣本判斷其為真實數據的概率。
簡單來說,對抗訓練面需要判別器盡可能判定student model生成的圖片為假,另面需要student model盡可能欺騙判別器。
為了提升對抗訓練的穩定和果,該團隊做了如下改進:
真實數據混策略:按固定比例混質量真實數據和teacher生成圖,提升泛化度和訓練穩定;特征提取器引入:使用額外的DINO模型作為feature extractor,提供魯棒的特征表示;Loss權重調整:增加對抗訓練在loss中的占比。經實驗驗證,增加對抗訓練后,student model的畫面質感和細節表現發生顯著提升:
△增加GAN顯著提升畫面真實和細節
從應用果出發,細節決定成敗少步數擴散生成直是個重要的向。
然而,單法案受限于其本身的原理設計,往往不盡如人意。
阿里巴巴智能引擎團隊正是從落地果出發,逐個發現并分析蒸餾帶來的果問題(如扭曲、紋理確實),并針對解決,才能使得后的2步生成模型,終達到工業場景可落地的水準。
然而,盡管在大多數場景下Wuli-Qwen-Image-Turbo能夠和原模型比肩;但在些復雜場景下,受限于去噪步數,仍存在可改進空間。團隊在后續的release中將會持續發布速度快、果好的生成模型。
接下來,他們將持續出,并迭代多擴散加速技術,并開源模型權重。
而以上這些突破的背后,離不開他們長期以來的厚積淀——
作為阿里AI工程系統的建設者與維護者,團隊聚焦于大模型全鏈路工程能力建設,持續優化研發范式,注大模型訓能優化、引擎平臺、Agent應用平臺等關鍵組件,致力于為阿里集團各業務提供穩定的AI工程基礎設施。
智能引擎團隊始終堅持開放共享的技術文化,此前已貢獻了包括Havenask、RTP-LLM、DiffSynth-Engine、XDL、Euler、ROLL等在內的多項優秀開源項目。
未來,他們期待與開源社區共同成長,希望將的工程能力轉化為觸手可及的創作工具。
該團隊所有技術后續都會同步在嗚哩AI平臺上線,論你是業設計師、內容創作者,還是AI好者,嗚哩或許都能讓你的創意即刻成像。
點擊文末“閱讀原文”,可前往嗚哩官網體驗!
參考文獻:
[1] Progressive Distillation for Fast Sampling of Diffusion Models[2] Consistency Models[3] LARGE SCALE DIFFUSION DISTILLATION VIA SCOREREGULARIZED CONTINUOUS-TIME CONSISTENCY[4] Improved Distribution Matching Distillation for Fast Image Synthesis[5] ABKD: Pursuing a Proper Allocation of the Probability Mass in Knowledge Distillation via α-β-Divergence[6] Transition Matching Distillation for Fast Video Generation[7] Phased Consistency Models相關詞條:鋁皮保溫施工 隔熱條設備 鋼絞線 玻璃棉卷氈 保溫護角專用膠