DeBiasRAG：基於檢索增強生成的免微調公平生成框架

大型語言模型雖具備強大的生成能力，但常因訓練數據中的社會偏見產生種族、性別等刻板印象。現有微調或提示工程方法不僅消耗資源，還可能削弱模型原有能力且缺乏動態適應性。本文提出DebiasRAG，一種基於檢索增強生成的免微調動態去偏見框架。該方法透過三個階段實現公平生成：首先利用離線準備的偏見語料庫，針對查詢生成特定的去偏見候選上下文；其次構建包含常規檢索結果的上下文候選池；最後透過梯度更新指導的上下文片段重排序，將去偏見上下文作為額外約束注入生成過程。實驗表明，DebiasRAG在保持模型表征能力的同時，顯著提升了生成的公平性，為LLM的魯棒性部署提供了新路徑。