從文本到語音：可複現的語音工具呼叫大模型智慧體評估框架

本文針對語音智慧體在工具呼叫方面缺乏可靠評估基準的問題，提出了一種無需重新標註工具模式和黃金標籤即可將現有文本基準轉換為受控音訊評估的通用框架。該框架透過文本轉語音、說話人變化和環境噪音生成配對的文本-音訊實例，保留了原始資料集的標註資訊。透過對7個全模態模型在Confetti和When2Call資料集上的廣泛評估，研究發現模型效能高度依賴於具體模型和任務類型。例如，Gemini-3.1-Flash-Live在Confetti上得分最高，而GPT-Realtime-1.5在When2Call上表現最佳。分析顯示，效能下降主要源於對語音中引數值的誤解。此外，研究還驗證了基於開源大模型的無參考評估協議，發現8B以上的Qwen3模型與專有模型評估結果的一致性超過80%，為隱私保護評估提供了支持。