DeBiasRAG:基於檢索增強生成的免微調公平生成框架

大型語言模型雖具備強大的生成能力,但常因訓練數據中的社會偏見產生種族、性別等刻板印象。現有微調或提示工程方法不僅消耗資源,還可能削弱模型原有能力且缺乏動態適應性。本文提出DebiasRAG,一種基於檢索增強生成的免微調動態去偏見框架。該方法透過三個階段實現公平生成:首先利用離線準備的偏見語料庫,針對查詢生成特定的去偏見候選上下文;其次構建包含常規檢索結果的上下文候選池;最後透過梯度更新指導的上下文片段重排序,將去偏見上下文作為額外約束注入生成過程。實驗表明,DebiasRAG在保持模型表征能力的同時,顯著提升了生成的公平性,為LLM的魯棒性部署提供了新路徑。