DemoPSD:基于分歧调节的策略自蒸馏框架,破解大模型推理训练中的特权信息泄露难题

针对大语言模型在线策略自蒸馏(OPSD)中因教师模型提供密集token级监督而引发的过拟合与"特权信息泄露"问题,研究提出DemoPSD框架。该框架通过选择性采纳教师指导,将学生模型引导至反向KL重心目标,平衡知识获取与自身推理能力保留。实验表明,DemoPSD在SciKnowEval四个科学领域显著优于GRPO和SDPO,维持更高训练熵,并在分布外GPQA基准上展现鲁棒的泛化能力,为提升复杂推理任务中的模型泛化性提供了新路径。

在大型语言模型(LLM)的推理能力训练领域,在线策略自蒸馏(OPSD)作为一种高效范式正受到广泛关注。该方法的核心逻辑在于让同一个模型同时扮演教师与学生的角色,通过不同层级的信息访问权限进行自我博弈与学习。然而,随着研究的深入,学术界发现这种机制存在显著的内在缺陷。当教师模型拥有特权信息时,其生成的密集token级监督信号往往会导致学生模型过度拟合训练域内的特定模式,从而严重抑制了模型在未知场景下的探索意愿。更为致命的是,这种机制引入了"特权信息泄露"这一根本性问题:学生模型在训练过程中学会了依赖那些仅在训练时可见的答案捷径,而在实际测试环境中,这些捷径因信息缺失而失效,导致模型性能断崖式下跌。针对这一痛点,本研究提出了DemoPSD框架,旨在通过"选择性采纳教师指导"的理念,从根本上重构自蒸馏过程中的知识传递机制,解决过拟合与泄露并存的难题,为提升模型的鲁棒推理能力提供新的理论视角与实践路径。在技术实现层面,DemoPSD摒弃了传统方法中直接拟合完整教师分布的做法,转而引入了一种更为精细的"反向KL重心目标"。

具体而言,该框架计算教师分布与学生分布之间的差异,并将这种差异作为调节因子,动态地构建一个加权几何组合目标。这个目标既包含了教师提供的优质推理路径,又保留了学生自身已有的推理能力,从而在两者之间寻求最佳平衡点。在训练过程中,DemoPSD并非对所有token位置一视同仁地施加监督,而是根据分布差异的大小,自适应地控制每个位置上的混合比例。在差异较大、教师指导价值较高的位置,模型会更倾向于吸收教师的信息;而在差异较小或学生已有较强确信度的位置,则更多地保留学生自身的输出。这种机制不仅在理论上被证明能够有效实现"泄露衰减",即切断学生对特权信息的依赖,还能在密集蒸馏的过程中"保留探索能力",防止模型陷入局部最优,确保其在面对新颖问题时仍能保持灵活的反应机制。为了验证DemoPSD的有效性,研究团队在SciKnowEval基准上进行了广泛的实验,覆盖了四个不同的科学领域,以全面评估模型在复杂科学推理任务中的表现。实验结果显示,DemoPSD在多项关键指标上均显著优于当前的先进方法,包括GRPO(Group Relative Policy Optimization)和SDPO(Self-Distillation with Policy Optimization)。

值得注意的是,DemoPSD在取得更高准确率的同时,还保持了显著更高的训练熵,这直接印证了其在抑制过拟合和维持探索多样性方面的优势。此外,为了进一步检验模型的泛化能力,研究者在分布外(OOD)的GPQA基准上进行了测试。结果表明,DemoPSD展现出了极强的鲁棒性,即使在面对未见过的数据分布时,其性能下降幅度也远小于对比基线。消融实验进一步揭示,通过动态调整分布混合比例,模型能够更有效地识别并过滤掉那些依赖特权信息的虚假相关性,从而学习到真正具有因果关系的推理逻辑,这一发现对于理解自蒸馏机制中的信息流动具有重要启示。从行业意义与潜在影响来看,DemoPSD的提出不仅是对现有LLM训练范式的一次重要修正,更为开源社区和工业落地提供了更具实用价值的工具。在工业界,大模型在垂直领域的落地往往面临数据分布偏移和隐私保护的双重挑战,DemoPSD所强调的"泄露衰减"特性有助于构建更安全、更可靠的推理系统,减少因数据泄露导致的合规风险。同时,其保持高训练熵的特性意味着模型在资源受限的情况下仍能保持较好的泛化能力,这对于降低大规模模型微调的计算成本具有积极意义。对于后续研究而言,DemoPSD所提出的反向KL重心目标为设计更复杂的自监督学习算法提供了新的数学框架,未来可探索将其扩展至多模态领域或强化学习中的其他策略优化场景。总体而言,这项工作通过严谨的理论推导与扎实的实验验证,为突破当前大模型推理训练的瓶颈提供了切实可行的解决方案,有望推动下一代推理模型向更通用、更稳健的方向发展。

Sources