RepFusion:打破多模态割裂,用LLM先验重构扩散模型去噪范式

针对当前文本到图像生成系统中语言模型与生成网络割裂的问题,RepFusion提出了一种利用多模态先验在表示空间去噪的新架构。通过引入表示自编码器构建语义兼容的潜在空间,并复用多模态大模型作为噪声编码器,该研究证实了LLM具备强大的视觉去噪先验能力。实验表明,在相同推理预算下,RepFusion显著优于独立初始化的去噪基线模型,为高效利用大模型计算资源提供了新路径。

当前主流的文本到图像生成系统虽然广泛采用大语言模型进行文本编码,但存在明显的架构割裂:LLM通常仅负责提取文本语义,而图像去噪过程则由专门训练的新生成骨干网络独立承担。这种设计忽视了LLM在视觉理解与生成中潜在的巨大价值。本文针对这一痛点,提出了一种名为RepFusion的新方法,其核心贡献在于重新定义了多模态大模型在生成过程中的角色。研究指出,随着表示自编码器(RAE)的兴起,生成目标已从像素空间转向语义结构化的视觉表示空间,这一潜在空间与预训练LLM的先验知识具有更高的兼容性。受多模态LLM中通过MLP投影器对齐清洁视觉表示与文本嵌入的启发,作者创新性地将MLLM本身复用为噪声表示编码器。这一转变不仅打破了传统去噪网络对大量新参数的依赖,更将LLM强大的语义理解能力直接引入去噪过程,实现了从清洁表示到噪声表示的机制延伸,为T2I系统提供了一种更高效、更语义一致的去噪范式。在技术实现层面,RepFusion构建了一个基于扩散Transformer的生成框架,但其条件注入机制与传统方法截然不同。传统方法通常依赖交叉注意力机制将文本条件引入去噪过程,而RepFusion则利用经过特殊适配的MLLM直接处理噪声视觉表示。

具体而言,模型首先通过表示自编码器将图像映射到潜在空间,随后在去噪的每一步迭代中,将当前的噪声表示输入到MLLM中。MLLM利用其内部的多层感知机投影器,将噪声表示映射到与文本嵌入兼容的语义空间,从而生成高质量的条件信号。这一条件信号随后被注入到扩散Transformer中,指导去噪过程向语义正确的方向演进。训练策略上,该方法并未重新训练MLLM的主体参数,而是侧重于优化投影层及扩散模型的适配,确保噪声表示能够被准确解析为语义信息。这种设计使得模型能够在保持较低计算开销的同时,充分利用预训练LLM中蕴含的丰富视觉-语言对齐先验,实现了去噪过程与语义理解的深度融合。为了验证RepFusion的有效性,研究者在多个标准基准数据集上进行了严格的对比实验,并控制了推理预算以消除计算资源差异带来的偏差。实验结果显示,在相同的推理成本下,RepFusion在图像生成质量上显著优于基线模型,特别是那些将同等模型容量投入新初始化去噪器的对比方法。消融实验进一步揭示了关键发现:MLLM作为噪声编码器提供的先验信号对去噪稳定性至关重要,移除该机制会导致生成结果出现严重的语义偏差。

此外,研究还发现,随着去噪步骤的增加,重复利用MLLM进行条件处理能够持续优化生成细节,证明了测试时计算资源在重复MLLM条件处理中的高效利用。这些结果不仅量化了MLLM在去噪任务中的优势,也验证了通过语义引导提升生成质量的可行性,为后续研究提供了坚实的实验基础。从行业意义来看,RepFusion的提出对开源社区和工业落地具有深远影响。首先,它证明了无需从头训练大规模去噪网络,仅通过复用现有的多模态LLM即可实现高质量的图像生成,这极大地降低了模型训练的成本和数据需求。对于工业界而言,这种架构简化了系统复杂度,使得利用现有LLM基础设施快速构建定制化T2I系统成为可能。其次,该方法强调了语义先验在生成过程中的核心作用,提示后续研究应更多关注模型间的知识迁移与对齐,而非单纯增加网络容量。对于开源社区,RepFusion提供了一种新的模型复用思路,鼓励开发者探索如何将预训练的多模态模型更灵活地应用于生成任务。最后,该研究揭示了测试时计算优化的潜力,为未来开发更高效、更智能的生成式AI系统指明了方向,有望推动T2I技术在创意产业、虚拟现实等领域的更广泛应用。

Sources