CollabSim:基於CSCW理論的大型語言模型多智能體協作能力評估框架

隨著大型語言模型(LLM)驅動的多智能體系統日益普及,其效能高度依賴於智能體間透過文字管道進行的協調能力。然而,現有研究指出,多智能體系統的失敗往往並非源於個體任務解決能力的不足,而是缺乏協作能力——即建立共同基礎、維持共享任務理解、平衡個體與集體激勵以及修復互動錯位的能力。儘管電腦支援協同工作(CSCW)領域對此已有數十年研究,但當前多智能體系統評估仍主要聚焦於任務結果或單智能體推理能力。為此,本文提出CollabSim,一個可配置的模擬框架,結合理論驅動的協作能力定義、對互動條件的受控操縱以及對智能體內部狀態的動作級探測。在四種大型語言模型上的實驗表明,CollabSim能有效捕捉條件效應、區分模型效能模式,並揭示智能體設計對任務的依賴性影響,為系統性分析多智能體系統協作能力提供了新範式。