從文本到語音：可復現的工具呼叫LLM智慧體評估框架

本文提出了一種無需重新標註工具模式和黃金標籤即可將文本基準轉換為受控音頻工具呼叫評估的資料集無關框架。該框架利用文字轉語音、說話人變化及環境影響噪声，生成配對的文字-音頻實例，保留了原始資料集的標註資訊。透過對7個全模態模型在Confetti和When2Call基準上的廣泛評估，研究發現性能高度依賴於模型和任務的選擇。例如，Gemini-3.1-Flash-Live在Confetti上得分最高（70.4），而GPT-Realtime-1.5在When2Call上表現最佳（71.9）。分析顯示，性能下降主要源於對語音中參數值的誤解。此外，研究報告了僅文字結果、基於歧義的重述壓力測試，以及經人類偏好驗證的無參考LLM-as-judge協議，發現開源Qwen3裁判模型與專有裁判模型的一致性超過80%，為隱私保護評估提供了支持。