大模型量化後門：透過異常值注入突破AWQ等高級量化防禦

本文揭示了大語言模型量化部署中嚴峻的安全隱患，提出了首個能針對AWQ、GPTQ及GGUF I-quants等廣泛使用的高級量化方案成功觸發惡意行為的量化條件攻擊方法。現有研究多侷限於簡單量化場景，難以應對現代複雜演算法。本研究利用現代量化中異常值導致其他權重歸零的共性機制，透過向特定權重塊注入異常值，誘導模型權重發生可預測的坍塌。實驗表明，攻擊者在保持全精度模型表面良性的同時，可在量化後引發多種惡意行為，且在多種基準測試中取得了極高的成功率，證明了量化安全風險在複雜方案中的普遍性。