語言模型的工具調用具有線性可讀性與可控性
當工具呼叫智慧體選錯工具時,錯誤在執行前不可見:郵件已寄出,會議已錯過。研究人員在Gemma 3、Qwen 3、Qwen 2.5與Llama 3.1(270M至27B參數)的12個指令微調模型上進行探測,發現所選工具的身分在模型內部具有線性可讀性與可控性。在僅含名稱的單輪提示中,向兩個工具的平均內部激活均值差加入干預,能以77%-100%的準確率(4B以上模型達93%-100%)改變模型選擇的工具。後續的JSON參數也會自回歸地匹配新工具的Schema,從而實現對模型工具呼叫行為的直接干預。