大模型量化後門:透過異常值注入突破AWQ等高級量化防禦
本文揭示了大語言模型量化部署中嚴峻的安全隱患,提出了首個能針對AWQ、GPTQ及GGUF I-quants等廣泛使用的高級量化方案成功觸發惡意行為的量化條件攻擊方法。現有研究多侷限於簡單量化場景,難以應對現代複雜演算法。本研究利用現代量化中異常值導致其他權重歸零的共性機制,透過向特定權重塊注入異常值,誘導模型權重發生可預測的坍塌。實驗表明,攻擊者在保持全精度模型表面良性的同時,可在量化後引發多種惡意行為,且在多種基準測試中取得了極高的成功率,證明了量化安全風險在複雜方案中的普遍性。