LoMo:以局部模态替换打破视觉语言模型的载体偏见

针对视觉语言模型在模态替换任务中性能显著下降的痛点,研究提出了一种名为局部模态替换(LoMo)的轻量级数据策展范式。现有训练数据中文本与图像的不对称角色导致模型产生载体敏感性偏差,难以对齐语义等价的跨模态表示。LoMo通过将单模态提示重构为无缝交错的模态序列,动态选择目标文本片段并渲染为图像,在"文本-视觉-文本"结构中提供跨模态表示不变性的监督信号。在13个多模态基准上的实验表明,该方法在LLaVA-OneVision-1.5-8B和Qwen3.5-9B上分别提升了2.67和2.82个百分点,显著增强了模型的多模态推理能力。

视觉语言模型在多模态理解与推理任务中取得了显著进展,但其对输入载体形式的敏感性往往被忽视。理想情况下,将文本问题替换为等价的渲染图像不应影响模型性能,但实践中却导致性能大幅下降。本研究将这一"载体敏感性"问题归因于现有训练语料库中的固有偏差。在图像描述、视觉问答、光学字符识别及网络交错数据等主流数据集中,文本通常作为语言查询,而图像仅作为视觉参考,这种不对称的角色分配导致模型在不同模态间的信息获取上存在偏好差异。这种数据偏差使得模型难以对齐语义等价内容在文本和视觉载体上的表示,导致推理过程在模态替换时变得脆弱。为此,本文提出局部模态替换(LoMo),这是一种轻量级且与架构无关的数据策展范式,旨在为语义等价文本与图像载体之间的跨模态表示不变性提供监督。

LoMo通过重构单模态提示为无缝交错的 multimodal 序列来实现这一目标,动态选择目标文本片段并将其重新表述为渲染图像,从而在"文本-视觉-文本"的载体结构中保持语义一致性,迫使模型学习更鲁棒的跨模态对齐机制。在技术实现层面,LoMo的核心在于其数据生成策略,而非复杂的网络结构调整。该方法首先从现有的单模态提示中提取关键文本片段,随后利用渲染技术将这些文本片段转换为图像形式,并将其插入到原始序列中,形成"原始文本-渲染图像-后续文本"的交错结构。这种设计不仅保留了原始语义,还引入了视觉模态作为中间桥梁,强制模型在处理文本信息时同时利用视觉线索,从而增强对语义内容的深层理解。由于LoMo是一种数据策展范式,它无需修改模型架构,即可应用于各种预训练模型。通过这种方式,模型在训练过程中能够接触到更多样化的模态组合,学习到更通用的跨模态表示,从而减少对特定模态载体的依赖。

这种策略有效地缓解了因数据偏差导致的表征不对齐问题,提升了模型在复杂多模态场景下的泛化能力。为了验证LoMo的有效性,研究者在13个多样化的多模态基准上进行了广泛的实验。实验结果一致表明,LoMo显著提升了整体多模态推理性能,并实现了更深层次的跨模态融合。具体而言,在基础模型LLaVA-OneVision-1.5-8B上,LoMo相比标准监督微调提升了2.67个点;在Qwen3.5-9B上,提升幅度达到2.82个点。这些增益在不同规模的模型上均保持一致,证明了方法的普适性。消融实验进一步揭示了LoMo中各组件的作用,表明动态选择文本片段和渲染图像的策略对于提升性能至关重要。

此外,研究还发现,LoMo在处理需要复杂推理和细粒度理解的任务时表现尤为突出,这得益于其通过交错序列提供的丰富监督信号。这些结果不仅验证了LoMo的有效性,也为后续研究提供了新的视角,即通过数据策展而非模型架构调整来解决多模态对齐问题。从行业意义来看,LoMo为多模态大模型的发展提供了一种低成本、高效率的优化路径。由于其与架构无关的特性,LoMo可以轻松集成到现有的训练流程中,无需额外的计算资源或复杂的工程实现。这对于开源社区和工业界具有重要的实用价值,能够帮助开发者以更低的成本提升模型性能。此外,LoMo所揭示的载体敏感性问题和数据偏差现象,为后续研究指明了方向,即需要更加关注训练数据的质量和多样性,而不仅仅是数据规模。通过改进数据策展策略,可以进一步挖掘多模态模型的潜力,推动其在自动驾驶、医疗诊断、智能助手等实际应用场景中的落地。总之,LoMo不仅是一项技术创新,更是对多模态学习本质的一次深刻反思,为构建更鲁棒、更智能的多模态系统奠定了坚实基础。