语境即立场？审计大模型在在线讨论中的模拟偏差与多模态影响

随着大型语言模型被广泛用于模拟社交媒体用户及推断其在网络讨论中的反应，其模拟结果是否真实反映用户特定信念，还是仅对语境变化高度敏感，仍存巨大疑问。本研究提出"反事实语境修订"框架用于审计基于LLM的立场模拟系统。研究首先推断目标用户对特定话题的初始立场，随后通过受控策略修订对话语境并在修订后的语境下重新模拟用户立场。研究对比了纯文本修订与引入模因的多模态修订策略，重点评估平均方向性立场偏移和立场转换率两项核心指标。实验结果显示在不同极化偏好机制下两种策略均能引发有效且稳健的立场转换。该工作为理解LLM立场模拟的语境敏感性提供了评估框架，并深刻揭示了利用LLM模拟网络舆论动态时所蕴含的潜力与风险。

当前，大型语言模型正日益成为模拟社交媒体用户行为、预测个体在网络讨论中反应的重要工具。然而，这种模拟技术的可靠性基础尚不牢固：我们难以确定模型生成的立场是精准映射了用户固有的特定信念，还是仅仅因为对话语境的细微改变而产生了剧烈波动。如果模型对语义上独立但形式不同的语境变化过于敏感，那么其模拟结果将缺乏稳定性与可信度。针对这一核心问题，本研究引入了"反事实语境修订"作为审计框架，旨在系统性地检验LLM在立场模拟任务中的表现。研究的核心贡献在于构建了一套严谨的方法论，通过控制变量来观察语境变化如何干扰或重塑模型对用户立场的判断。这不仅是对现有模拟技术的一次深度压力测试，更是为了厘清模型在多大程度上是在"理解"用户，还是在"迎合"语境。通过这种方式，研究者能够剥离出语境噪声对用户立场推断的真实影响，从而为后续优化模型鲁棒性提供理论依据。在技术方法层面，本研究设计了一套精细的实验流程。首先，系统基于原始的在线对话记录，推断目标用户针对某一特定话题的初始立场。这一步骤确立了基准线，确保后续的对比具有参照系。接着，研究应用了多种受控的语境修订策略，对原始对话背景进行修改。这些策略主要分为两类：一是纯文本修订，即通过调整文本内容的表述、语气或逻辑结构来改变语境；二是多模态修订，特别引入了基于模因（meme）的语境元素，以模拟社交媒体中常见的图文混合传播场景。在完成语境修订后，系统再次调用LLM模拟同一用户在新语境下的立场。为了量化语境变化带来的影响，研究定义了两个关键的有效性指标：平均方向性立场偏移（average directional stance shift）和立场转换率（stance transition rate）。前者衡量立场变化的幅度与方向，后者统计立场发生实质性改变的频率。这种方法论设计使得研究者能够从微观和宏观两个维度，全面捕捉LLM对语境扰动的响应模式。实验设置涵盖了不同的极化偏好机制，以确保结果的普适性与 robustness。研究者在多个基准场景下进行了测试，对比了纯文本策略与多模态策略的表现。关键实验结果揭示了一个令人深思的现象：无论是仅依靠文本信息的修订，还是结合模因图像的多模态修订，都能在不同程度的极化偏好设置下，引发有效且稳健的立场转换。这意味着，LLM模拟的用户立场并非铁板一块，而是具有高度的可塑性。具体而言，当对话语境发生即使是不改变核心语义的修饰性变化时，模型模拟出的用户立场也可能发生显著偏移。消融实验进一步证实，多模态元素的加入并未削弱这种敏感性，反而在某些情境下增强了立场转换的效果。这些数据有力地证明了当前LLM在立场模拟任务中对语境的高度依赖性，同时也表明了单纯依赖文本或简单多模态输入可能不足以锁定用户的真实信念，模型极易受到表面语境特征的诱导而产生判断漂移。这项研究的行业意义深远，既为开源社区提供了宝贵的评估工具，也为工业界的应用敲响了警钟。首先，它贡献了一个标准化的评估框架，使研究人员能够系统地量化和理解LLM立场模拟中的语境敏感性，这对于开发更鲁棒的社交模拟算法至关重要。其次，对于试图利用LLM进行舆情分析、市场预测或政治倾向研究的机构而言，研究结果highlight了巨大的潜在风险：如果模拟结果极易被语境操纵，那么基于此做出的决策可能存在严重偏差。此外，从更广泛的社会影响来看，这项工作揭示了利用LLM模拟网络舆论动态的双刃剑效应。一方面，它展示了LLM在捕捉复杂社会互动方面的潜力；另一方面，也警示我们警惕算法可能被用于制造虚假共识或操纵公众意见。未来的研究需要在此基础上，探索如何通过提示工程、微调或架构改进，降低模型对无关语境噪声的敏感度，从而实现更真实、更可靠的用户行为模拟。

Sources

arXiv