CollabSim：基於CSCW理論的大型語言模型多智能體協作能力評估框架

隨著大型語言模型（LLM）驅動的多智能體系統日益普及，其效能高度依賴於智能體間透過文字管道進行的協調能力。然而，現有研究指出，多智能體系統的失敗往往並非源於個體任務解決能力的不足，而是缺乏協作能力——即建立共同基礎、維持共享任務理解、平衡個體與集體激勵以及修復互動錯位的能力。儘管電腦支援協同工作（CSCW）領域對此已有數十年研究，但當前多智能體系統評估仍主要聚焦於任務結果或單智能體推理能力。為此，本文提出CollabSim，一個可配置的模擬框架，結合理論驅動的協作能力定義、對互動條件的受控操縱以及對智能體內部狀態的動作級探測。在四種大型語言模型上的實驗表明，CollabSim能有效捕捉條件效應、區分模型效能模式，並揭示智能體設計對任務的依賴性影響，為系統性分析多智能體系統協作能力提供了新範式。

在大语言模型驱动的多智能体系统迅速发展的背景下，一个核心问题逐渐浮出水面：为何拥有强大个体能力的智能体在团队中往往表现不佳？这篇论文直指当前多智能体系统研究中的盲区，即忽视了"协作能力"这一关键维度。传统评估往往假设只要个体足够聪明，团队就能高效运作，但现实并非如此。作者指出，多智能体系统的失效通常不是因为智能体缺乏解决具体任务的推理或规划能力，而是因为它们无法像人类团队那样在受限的沟通渠道中有效协调。这种协作能力包括建立共同基础（common ground）、维持对任务的共享理解、在个体利益与集体目标之间取得平衡，以及在交互出现偏差时进行实时修复。尽管计算机支持协同工作（CSCW）领域早在几十年前就对这些人类团队协作的必要条件进行了详尽刻画，但现有的多智能体评估基准却严重滞后，大多仅关注最终的任务产出或单智能体的工具使用 proficiency。为了解决这一理论与评估之间的巨大鸿沟，本文引入了CollabSim，这是一个旨在系统性分析多智能体系统中协作能力的可配置模拟框架，标志着从单纯关注"结果正确性"向关注"过程协作性"的重要转变。 CollabSim的技术核心在于其将深厚的CSCW理论转化为可计算的实验变量，从而实现对协作过程的精细化控制与测量。该框架不仅仅是一个简单的对话模拟器，而是一个结合了理论 grounded 定义的协作能力量化体系。首先，它明确定义了协作能力的各个子维度，如共同基础的建立机制和错位修复策略。其次，框架允许研究人员对交互条件进行受控操纵，例如改变沟通带宽、信息不对称程度或奖励结构，从而模拟真实世界中复杂的协作约束。更为创新的是，CollabSim引入了动作级的内部状态探测机制。传统的黑盒评估只能看到输入和输出，而CollabSim能够深入智能体的决策过程，捕捉其在每一步交互中的内部状态变化。这种方法论使得研究者能够区分是模型本身的认知局限导致了协作失败，还是因为交互协议的设计缺陷。通过这种细粒度的探针，CollabSim能够揭示智能体在面对不同协作挑战时的具体行为模式，例如它们如何在信息不全的情况下尝试对齐意图，或者在冲突发生时如何调整策略。这种从宏观结果到微观机制的穿透力，是该框架区别于以往任何多智能体基准的关键技术贡献。为了验证CollabSim的有效性，作者在四种不同的大语言模型上进行了广泛的实验。实验设计并非简单地比较准确率，而是重点考察框架捕捉"条件效应"的能力。结果显示，CollabSim成功分离了不同模型的性能模式，证明了某些模型在个体推理上表现优异，但在需要高度协调的协作场景中却显得笨拙。关键发现表明，协作能力具有显著的任务依赖性，即某种智能体设计在一种协作条件下可能表现良好，而在另一种条件下则完全失效。消融实验进一步揭示，当引入受控的交互干扰时，不同模型在修复错位和维持共享理解方面的表现存在巨大差异。这些结果有力地反驳了"更强的大模型必然带来更好的多智能体协作"这一简单假设。实验数据清晰地展示，如果没有专门的协作机制设计，单纯提升基座模型的参数规模并不能自动转化为团队层面的效能提升。CollabSim通过这些细致的指标，量化了智能体在建立共同基础和平衡激励方面的具体得失，为理解多智能体系统的瓶颈提供了实证依据。 CollabSim的提出对开源社区和工业界落地具有深远的意义。首先，它为多智能体系统的评估建立了一个新的标准，促使研究者从关注单点能力转向关注系统性的协作涌现。对于工业应用而言，这意味着在设计客服团队、代码协作助手或自动化工作流时，不能仅测试单个Agent的性能，必须使用类似CollabSim的框架来评估其在复杂交互中的鲁棒性。其次，该框架揭示了当前大模型在社交智能和协作推理方面的短板，为后续模型训练数据的构建和对齐算法的优化指明了方向。未来研究可以基于CollabSim探索更高效的通信协议，或开发专门增强协作能力的微调策略。总之，这项工作不仅填补了CSCW理论与现代AI系统之间的空白，更为构建真正具备人类级别协作智慧的多智能体系统奠定了方法论基础，推动了多智能体研究从"能用"向"好用"和"可信"迈进的关键一步。

Sources

arXiv