基於RFM-AGOP的快速多維拒絕子空間提取方法

本文針對大語言模型中有害查詢被拒絕這一現象的多維表徵難題,提出一種基於遞歸特徵機(RFM)的高效子空間提取算法。傳統方法通常假設模型行為編碼於單一的線性方向,但近期研究表明拒絕行為實際分佈在多維高維空間中,且現有提取方法計算成本高昂,難以應用於產生長推理軌跡的推理模型。通過結合探針初始化策略,該方法可在數秒內從Qwen 3(推理模型)和Qwen 2.5(非推理模型)中識別出多維拒絕子空間。消融實驗表明,RFM在提取速度和任務性能上均顯著優於現有替代方法。這一低成本、可擴展的補充工具有望成為大模型安全監控與可解釋性研究的重要工具,為理解不同方法提取的拒絕子空間之間的關係奠定基礎。

Sources