RepFusion:利用多模態先驗在表示空間中去噪的擴散模型新範式

本文提出RepFusion架構,針對當前文本到圖像(T2I)系統中大型語言模型僅負責文本編碼、而去噪過程完全由獨立生成網路處理的問題。研究引入表示自編碼器(RAE),將生成目標轉向語義結構化的視覺表示,構建與LLM先驗更相容的潛在空間。RepFusion創新性地複用多模態LLM作為噪声表示編碼器,透過其MLP投影器機制,將對清潔視覺表示的對齊能力遷移至噪声輸入,並將MLLM輸出作為擴散Transformer的條件信號。在嚴格控制的對比實驗中,RepFusion以相似推理預算顯著超越將同等容量投入新初始化去噪器的基準模型,證實了MLLM為視覺表示去噪提供了強大先驗,證明了測試時透過重複MLLM條件處理來高效利用計算資源的可行性。

Sources