何时写入与何时抑制:面向记忆辅助知识编辑的路由专用双适配器机制
针对大语言模型知识编辑中"更新特定事实同时保留无关行为"的核心难题,最新研究提出了一种名为Route-Specialized Dual Adapters的新型框架。该方法不仅关注如何写入新知识,更关键地解决了何时抑制旧知识的问题。通过引入相关性路由器判断提示词是否应接收编辑记忆,并采用双适配器策略:被路由的提示使用编辑适配器以偏好新对象,未被路由的提示则使用局部性适配器以恢复原对象偏好。在CF、ZSRE和MQuAKE基准及Llama-3.1-8B和Qwen3-8B模型上的实验表明,该方法取得了最优的概率偏好准确率,显著优于基线。消融实验证实,将编辑注入与路由外抑制分离是性能提升的关键,而非单纯增加LoRA容量,为高效且精准的知识更新提供了新范式。
知识编辑技术的核心挑战在于如何精准地更新模型中的特定事实,同时确保模型在其他无关场景下的行为不受干扰,即保持知识的局部性。传统的编辑方法往往难以平衡"写入"与"抑制"之间的关系,容易导致过度编辑或编辑失败。本文深入探讨了在记忆辅助设定下的知识编辑问题,指出当前的中心设计问题不仅仅是如何有效地写入编辑信息,更关键的是要解决何时抑制这些编辑信息的问题。为此,作者提出了一种名为Route-Specialized Dual Adapters的编辑框架,旨在通过路由机制和双适配器结构,实现对知识更新的精细控制。该方法的核心贡献在于将编辑过程分解为相关性判断、编辑注入和局部性恢复三个环节,从而在保持模型整体性能稳定的同时,实现对特定事实的高效更新。这一思路为知识编辑领域提供了新的视角,即通过动态路由来决定编辑记忆的应用范围,从而避免对无关知识的误触。在技术方法上,该框架引入了一种基于路由器的双适配器架构。首先,一个相关性路由器负责判断输入的提示词是否与待编辑的记忆相关。如果相关,提示词将被路由至编辑适配器,该适配器经过专门训练,旨在使模型在推理时偏好新的对象而非原始对象,从而实现知识的更新。
如果提示词被判定为不相关,即属于非直接提示,它将被路由至另一个独立的局部性适配器。这个局部性适配器的作用是确保模型在处理这些非直接提示时,能够保留甚至恢复对原始对象的偏好,从而防止编辑信息的溢出效应。这种设计巧妙地分离了编辑注入和抑制过程,使得模型能够在不同路径上执行不同的任务。此外,该方法还探讨了不同类型的路由器,如基于词汇的神经路由器和基于BGE嵌入的路由器,以寻找在不同数据集上表现最佳的相关性判断策略。通过这种精细的路由和适配器分工,模型能够在复杂的知识环境中实现精准的知识编辑。为了验证所提方法的有效性,作者在三个包含一千个案例的协议上进行了广泛评估,分别是CF、ZSRE和MQuAKE基准。实验在两个参数规模为7B至8B的基础模型上进行,包括Llama-3.1-8B-Instruct和Qwen3-8B。在Llama-3.1-8B-Instruct模型上,该方法在所有三个基准测试中均取得了最佳的整体概率偏好准确率,具体数值分别为CF上的0.8180、ZSRE上的0.8946以及MQuAKE上的0.9922。在Qwen3-8B模型上也观察到了相同的性能趋势。
为了深入理解模型各组件的作用,作者进行了详细的消融实验。路由器消融实验显示,不同数据集上最佳的相关记忆边界存在差异:在CF数据集上,基于词汇的神经路由器最为安全且有效,而在ZSRE和MQuAKE数据集上,基于BGE嵌入的路由器表现更佳。此外,组件和模块的消融实验进一步揭示,性能的主要增益来源于将编辑注入与路由外抑制过程相分离,而非简单地增加LoRA的容量。这一发现强调了架构设计在知识编辑中的重要性,表明合理的任务分离比单纯增加模型容量更能提升编辑效果。该研究对开源社区和工业落地具有深远意义。首先,提出的双适配器框架为知识编辑提供了一种参数高效且可解释的解决方案,有助于降低大模型知识更新的成本和风险。其次,通过实验揭示的路由器选择策略,为不同应用场景下的知识编辑提供了实用的指导原则,例如在需要高精度匹配的场景下选择嵌入路由,而在需要鲁棒性的场景下选择词汇路由。此外,该方法强调的"写入与抑制"分离思想,也为后续研究提供了新的方向,即如何更智能地管理模型内部的知识边界。对于工业界而言,这种能够精准控制知识更新范围的技术,有助于构建更加可靠和可信赖的大语言模型系统,特别是在需要频繁更新事实性知识的领域,如新闻、金融和法律等。总之,本文为知识编辑领域提供了一个坚实的技术基础,推动了该领域向更精细、更可控的方向发展。