从文本到语音：构建可复现的LLM工具调用智能体评估新范式

最新研究提出了一种无需重新标注即可将文本基准转换为受控音频工具调用评估的数据集无关框架。该框架利用文本转语音、说话人变化及环境噪声生成配对实例，保留了原始标注信息。在对Confetti和When2Call基准的七款全模态模型评估中，Gemini-3.1-Flash-Live与GPT-Realtime-1.5分别在不同任务中领跑，得分分别为70.4和71.9。分析显示性能下降主要源于对语音参数值的误解。此外，研究验证了开源Qwen3裁判模型与专有模型的一致性超过80%，为隐私保护评估提供了新路径，标志着语音智能体评估从文本模拟向真实音频场景迈出了关键一步。

当前语音智能体在从语音中可靠地调用工具方面面临巨大挑战，而现有的主流工具调用基准测试大多仅基于文本数据，导致评估环境与真实应用场景存在脱节。本研究旨在解决这一关键问题，提出了一种通用的、可复现且可验证的评估框架，旨在将现有的文本基准无缝转换为受控的音频工具调用评估任务，而无需对工具模式（tool schema）和黄金标签（gold labels）进行重新标注。这一核心贡献在于打破了模态壁垒，使得研究者能够利用已有的高质量文本数据集，通过技术手段生成对应的音频评估数据，从而极大地降低了构建音频基准的门槛和成本。该框架不仅为评估全模态大语言模型在语音交互中的工具调用能力提供了标准化的测试床，还确保了评估过程的可复现性，为后续研究提供了坚实的基础设施支持。通过这种方式，研究团队希望揭示文本基准与音频基准之间的性能差异，并深入分析模型在语音理解层面的具体弱点，从而推动语音智能体技术的实质性进步。在技术方法层面，该框架采用了数据集无关（dataset-agnostic）的设计策略，核心在于通过文本转语音（Text-to-Speech, TTS）技术将文本指令转换为语音，同时引入说话人变化和环境影响噪声来模拟真实的语音交互场景。具体而言，框架保留了原始数据集的所有标注信息，包括工具名称、参数及其值，并通过TTS引擎生成语音输入。为了增加评估的难度和真实性，研究引入了多种说话人变体和环境噪声，以测试模型在不同声学条件下的鲁棒性。这种转换方法确保了生成的音频实例与原始文本实例在语义上的一致性，使得评估结果具有可比性。此外，框架还包含了一系列辅助评估协议，如基于歧义的重述压力测试，以检验模型在模糊指令下的表现。在评估环节，研究采用了一种无参考的LLM-as-judge协议，利用大语言模型作为裁判来评估智能体的输出质量，并验证了该协议与人类偏好的一致性。这种技术组合不仅提高了评估的效率，还通过自动化手段减少了对人工标注的依赖，为大规模评估提供了可行的解决方案。实验设置涵盖了7个主流的全模态模型，包括Gemini-3.1-Flash-Live、GPT-Realtime-1.5、Qwen3-Omni等，在Confetti和When2Call两个基准的音频转换版本上进行了广泛评估。关键结果显示，模型性能表现出强烈的模型依赖性和任务依赖性。例如，Gemini-3.1-Flash-Live在Confetti基准上取得了70.4的最高分，而GPT-Realtime-1.5在When2Call基准上以71.9分领先。研究还量化了从文本到语音的性能差距（text-to-voice gap），在Confetti基准上，该差距从Qwen3-Omni的1.8分到GPT-Realtime-1.5的4.8分不等。通过对失败案例的针对性分析，研究发现性能下降主要源于模型对语音中参数值的误解，而非工具调用逻辑本身的错误。此外，研究还报告了仅文本模式下的基准结果，以及基于歧义的重述压力测试结果，进一步揭示了模型在不同场景下的表现差异。消融实验表明，引入说话人变化和噪声显著影响了模型的鲁棒性，验证了框架在模拟真实环境方面的有效性。该研究的行业意义在于为开源社区和工业界提供了一个可复现、可验证的音频工具调用评估基准，弥补了现有文本基准在语音场景评估中的不足。对于工业落地而言，该框架帮助开发者更准确地评估其全模态模型在实际语音交互中的表现，特别是在处理复杂参数和噪声环境下的鲁棒性。对于后续研究，该框架提供了一种标准化的评估方法，促进了不同模型之间的公平比较，并揭示了语音理解层面的具体瓶颈，如参数值误解问题，为模型优化指明了方向。此外，研究发现的开源Qwen3裁判模型与专有裁判模型的高一致性（超过80%），为隐私保护评估提供了有力支持，降低了企业在使用LLM-as-judge协议时的数据泄露风险。总体而言，该框架不仅是一个评估工具，更是推动语音智能体技术从文本向语音迁移的重要基础设施，有助于加速语音AI在现实世界中的应用和成熟。