多智能体系统中的"偏见病毒"：传染网络框架揭示LLM评估偏差的传播与抑制

随着大型语言模型在多智能体系统中的广泛应用，评估者偏差的系统性传播成为影响系统公平性的关键隐患。最新研究提出「传染网络」形式化框架，通过控制变量实验量化了偏差在交互智能体间的扩散效应。研究发现，即便使用相同底层模型，评估偏差仍会在智能体间显著传播，跨智能体传染矩阵系数介于0.157至0.352之间。研究揭示了由谱半径控制的三种传播机制，并指出同构模型智能体的传染系数远低于异构模型。此外，将评估委员会规模从单人增至三人可有效降低72.4%的有效传染率，为构建更公平、鲁棒的多智能体系统提供了重要的理论依据与实践策略。

随着大型语言模型在多智能体系统中的广泛应用，LLM 不仅承担生成任务，还越来越多地扮演评估者角色，对其它智能体的输出进行打分或排序。然而，这种双重角色引发了一个严峻且未被充分研究的问题：评估者自身的系统性偏差是否会像病毒一样在智能体网络中传播，从而污染整个系统的决策质量？本文提出的"传染网络"框架正是为了应对这一挑战。研究核心在于形式化地测量和建模评估者偏差如何在交互的 LLM 智能体之间扩散。作者指出，当多个智能体基于彼此的评价进行迭代优化或协作时，初始评估者的偏见并非孤立存在，而是会通过反馈回路渗透到其他智能体的行为模式中。这项工作的主要贡献在于建立了一套可量化的指标体系，即跨智能体传染矩阵，并通过严谨的控制实验验证了偏差传播的存在性及其强度，打破了以往认为只要模型相同偏差即可抵消的天真假设，为理解多智能体系统中的社会性偏差奠定了理论基础。在技术方法层面，本研究设计了一个高度受控的三智能体实验环境，选用 DeepSeek-chat 作为基础模型，以排除模型架构差异带来的干扰，专注于评估者偏差本身的传播动力学。研究者构建了三种截然不同的评估者偏差画像：结构化偏差、平衡型偏差以及基于证据的偏差，以此模拟现实世界中不同风格的评估标准。核心创新在于引入了"跨智能体传染矩阵 Gamma_3"这一数学工具，用于精确捕捉偏差在节点间的流动路径与强度。通过计算该矩阵的谱半径 rho(Gamma_N)，研究团队识别出了支配偏差传播的三种不同机制或"制度"（regimes）。这种方法论的优势在于，它不再仅仅关注单次评估的准确性，而是从系统动力学的角度，将多智能体交互视为一个动态的网络过程。通过追踪偏差在时间步长上的演变，研究者能够区分出哪些偏差是暂时性的噪声，哪些是会持续放大并固化下来的系统性错误，从而为后续的干预措施提供了精准的靶向目标。实验结果揭示了令人深思的现象。首先，即便所有智能体都基于相同的 DeepSeek-chat 模型，评估者偏差依然在智能体间发生了 consistent 的传播，测得的传染系数 gamma 分布在 0.157 到 0.352 之间。这一发现至关重要，因为它证明了偏差传播并非仅源于模型间的异质性，而是内生于多智能体交互的结构之中。其次，通过与先前工作中观察到的跨模型传染系数（MM-EPC 中 gamma 约为 0.85-1.3）进行对比，本研究发现同构模型智能体产生的传染系数弱了 3 到 5 倍，这意味着同构系统处于一种相对的"抑制机制"下，偏差虽存在但不会无限放大。更为关键的实证发现是关于缓解策略的有效性：研究数据显示，将评估委员会的规模从单人（k=1）增加到三人（k=3），能够使有效传染率大幅降低 72.4%。这一量化结果为系统设计者提供了明确的工程指引，即通过增加评估者的多样性或数量，可以显著稀释个体偏差对整体网络的影响，其效果远优于单纯优化单个模型的对齐程度。这项研究对开源社区及工业界落地多智能体系统具有深远的意义。首先，它警示开发者在构建自动评估流水线时，不能忽视评估者本身的主观性所带来的长期累积效应。在金融风控、内容审核或代码审查等高风险场景中，未被察觉的偏差传播可能导致系统性的歧视或错误决策。其次，提出的"传染网络"框架及开源的实验代码，为后续研究提供了一个标准化的基准测试平台，使得不同团队可以在同一维度上比较各种去偏差算法的效果。从长远来看，理解并控制偏差传播是实现可信人工智能的关键一步。未来研究可以在此基础上，探索更复杂的网络拓扑结构下的偏差动力学，或者结合强化学习动态调整评估权重，以构建更具鲁棒性和公平性的多智能体协作生态。这不仅是一个技术问题，更是关乎 AI 系统社会责任感的重要议题。

Sources

arXiv