一种让具身多智能体从过往失败中自主学习合作法则的新型框架，实现自主对齐与高效协同。

为什么LLawCo很重要？

解决去中心化环境下智能体行为错位问题，在四个主流模型上成功率提升4.5%-6.8%。

后续研究方向是什么？

计划扩展至机器人集群、自动驾驶车队等更多领域，结合强化学习实现更高阶自主协作。

LLawCo：让具身智能体从失败中提炼"合作法则"，实现自主高效协同

针对去中心化及部分可观测环境下具身多智能体协作低效的难题，研究提出LLawCo框架。该框架通过让智能体反思过往失败以提取错位行为模式，并推导出如"必要时报信"、"等待同伴"等高阶行为法则。这些法则经监督微调显式融入思维链，显著提升推理一致性。基于构建的PARTNR-Dialog基准测试，LLawCo在四个主流大模型上分别提升4.5%和6.8%的成功率，为具身智能的自主协作提供了突破现有通信框架局限的新路径。

在去中心化且部分可观测的复杂环境中，具身智能体之间的协作能力一直是人工智能领域的核心挑战之一。尽管基于大语言模型的智能体在单一任务中表现出色，但在多智能体交互场景下，它们往往难以准确理解合作伙伴的意图或环境状态的细微变化，导致行为出现错位。这种错位不仅降低了协作效率，还严重影响了任务的成功率。为了解决这一关键痛点，研究团队提出了LLawCo框架，其核心贡献在于赋予智能体自主对齐的能力。LLawCo不仅仅是一个简单的指令跟随系统，而是一个能够自我反思并提炼合作规律的机制。它允许智能体从过去的失败经历中提取出导致协作破裂的行为模式，并将这些模式转化为高层级的行为法则。例如，智能体可以学习到"在必要时进行沟通"或"等待同伴到达指定位置"等抽象规则。通过这种方式，LLawCo实现了智能体推理过程与任务目标及伙伴行为的高度一致，从根本上改善了多智能体系统的协同表现。从技术实现的角度来看，LLawCo采用了一套精细化的训练策略，将行为法则显式地整合进智能体的思维链中。

具体而言，框架首先收集智能体在交互过程中的失败案例，通过深度分析识别出导致协作失败的关键行为偏差。随后，利用归纳推理方法，将这些具体的偏差转化为通用的行为法则。这些法则并非以静态规则的形式存在，而是通过监督微调技术，被注入到大语言模型的思维链推理过程中。这意味着，在智能体进行决策时，这些合作法则会作为隐式或显式的指导原则，影响其每一步的推理路径。这种设计使得智能体能够在动态变化的环境中，实时调整其策略，确保其行为既符合任务要求，又能与其他智能体形成互补。此外，该方法还强调了对伙伴行为的建模，使得智能体能够根据同伴的状态动态调整自己的行动节奏，从而在部分可观测的环境中实现更高效的协作。为了全面评估LLawCo的有效性，研究团队构建了名为PARTNR-Dialog的大规模多智能体沟通与协作规划基准，该基准基于PARTNR环境开发，涵盖了多种复杂的协作场景。实验部分不仅在现有的标准任务上进行了验证，还重点测试了在新基准上的表现。结果显示，LLawCo在四个不同的骨干大语言模型上均取得了显著的性能提升。

具体而言，在PARTNR-Dialog基准上，该方法平均提升了4.5%的任务成功率；而在TDW-MAT基准上，提升幅度更是达到了6.8%。这些结果明显优于当前最先进的开源通信智能体框架。消融实验进一步证实，引入行为法则反思机制和思维链微调是性能提升的关键因素。通过对比不同配置下的表现，研究者发现，仅依靠原始的大语言模型能力往往不足以应对复杂的协作任务，而LLawCo所提炼的行为法则有效地弥补了这一不足，显著增强了智能体的适应性和鲁棒性。LLawCo的提出对具身智能和多智能体系统领域具有重要的行业意义。首先，它为开源社区提供了一套可复现、可扩展的多智能体协作框架，降低了开发者构建复杂协作系统的门槛。其次，该方法在工业落地方面具有巨大潜力，特别是在机器人集群协作、自动驾驶车队协同以及虚拟助手团队管理等场景中，LLawCo所倡导的自主对齐机制能够显著提升系统的整体效率和稳定性。此外，LLawCo所提出的行为法则提炼方法，也为后续研究提供了新的方向。未来的工作可以进一步探索如何将这些法则应用于更广泛的领域，或者结合其他强化学习技术，以实现更高级别的自主协作能力。总之，LLawCo不仅解决了当前多智能体协作中的关键瓶颈，也为构建更加智能、灵活和高效的具身智能系统奠定了坚实的基础。

Sources

arXiv