MoE 多模态对话情感识别：融合文本、音频和视觉

这篇论文提出了一种基于 MoE（Mixture-of-Experts）架构的多模态对话情感识别方法。系统同时分析文本内容、语音音调和面部表情三种模态，通过专家混合机制动态选择最有效的特征组合来判断说话人的情绪。

与传统的特征拼接方法不同，MoE 架构让不同的专家网络专注于不同的模态组合和情感类型。例如，某些情绪更多通过语调表达（如讽刺），而另一些则更依赖面部表情（如惊讶）。

论文在多个对话情感基准上取得了新的 SOTA 结果。这项工作对构建更自然的 AI 对话系统有重要价值——让 AI Agent 不仅理解说什么，还理解怎么说。

对话中的情感识别（ERC，Emotion Recognition in Conversation）是人机交互领域最具挑战性的任务之一。当人类在交流时，情感的表达从来不是单一维度的——一句话的字面含义、说话时的语气与节奏、以及说话者的表情与肢体语言，这三重信号共同构成了真正意义上的情感传递。如何让机器系统同时理解这三种模态，并做出准确、鲁棒的情感判断，是多模态情感 AI 研究的核心命题。

本文介绍的研究提出了一种基于**混合专家（MoE，Mixture-of-Experts）**架构的多模态对话情感识别框架，通过引入动态路由机制，让系统根据输入特征自适应地选择最合适的专家网络组合，从而提升跨模态情感融合的精度。

为什么情感识别需要多模态？

单模态的天然局限

纯文本情感分析已发展多年，但其天花板清晰可见。当有人说"哦，真是太棒了"时，仅凭文字，模型很难判断说话者是真心赞美还是满含讽刺——但人类听一遍就能辨别，因为语调变化一目了然。

同理，仅靠音频的情感模型无法处理歧义，视觉模型在摄像头角度不佳或遮挡情况下同样频繁失效。真正鲁棒的情感识别，必须融合多个信息通道。

对话上下文的特殊性

对话场景与单句情感分析存在本质区别：每一句话的情感不仅取决于当前话语本身，还受到上下文历史（前几轮说了什么）以及说话者身份的强烈影响。例如，面对同一个"我不在乎"，主动方和被动方的情感状态截然不同。这要求模型同时具备**跨模态融合**和**跨时间建模**两种能力。

系统架构：三编码器 + MoE 融合

三路独立特征提取

论文设计了三个独立的模态编码器：

**文本编码器**：基于 BERT，对话语进行分词和上下文编码，提取语义层面的情感信号。
**音频编码器**：基于 WavLM，从原始语音波形提取声学特征，包括音调、语速、停顿等韵律信息。
**视觉编码器**：基于 Vision Transformer（ViT），处理视频帧中的面部表情，捕捉 Action Unit（AU）级别的细微表情变化。

三条编码流并行处理，各自产生固定维度的特征向量，随后送入核心融合模块。

MoE 动态融合层

传统多模态融合方式（如特征拼接、注意力加权平均）对所有样本使用相同的融合策略，但这并不合理——某些情感（如"愤怒"）在音频中表现极为突出，另一些（如"悲伤"）则更多体现在细微的表情变化上，还有一些复杂情感需要三种模态共同佐证。

MoE 层包含 **8 个专家网络**，每个专家学习一种特定的模态组合模式（单模态、双模态、三模态各有侧重）。门控网络（Gating Network）根据当前输入的特征分布，动态选择 **2-3 个最相关的专家**进行加权计算，其余专家不参与当前推理。

这一机制带来两大好处：

1. **计算效率**：每次推理只激活少量专家，显著降低 FLOPs。

2. **表达能力**：不同专家可以专注于不同的情感-模态关联模式，整体表达能力远超单一融合网络。

实验结果与基准对比

三大标准数据集全面领先

论文在情感识别领域最权威的三个基准数据集上进行了评测：

| 数据集 | 说明 | 加权 F1 提升 |

|--------|------|------------|

| **IEMOCAP** | 双人对话，6 类情感，音视频标注 | +2.3% |

| **MELD** | 《老友记》剧集，7 类情感，含情境噪声 | +1.8% |

| **CMU-MOSEI** | 大规模多模态情感分析基准 | 同步提升 |

难点场景的突破性改进

最值得关注的改进发生在两类传统模型高度困难的场景：

**讽刺（Sarcasm）**：文字内容与语气完全相反的情况，MoE 能学会此时主要依赖音频和语境专家，准确率大幅提升。
**中性伪装负面情绪**：表面平静但实为不满的话语，视觉微表情编码器在此起到决定性作用。

与主流 AI 趋势的深层关联

多模态 AI 的基础设施化

这项工作代表了 Multimodal AI 从"可能"走向"可用"的关键一步。情感识别不是玩具任务——它直接影响客服 AI 的质量、心理健康 App 的可信度、以及视频会议中的实时辅助功能。MoE 架构让高质量多模态模型在推理端实现了效率与精度的兼顾。

Agentic AI 的情绪感知层

对于下一代 Agentic AI 系统，情绪感知是提升任务完成质量的关键基础设施。一个能够感知到用户正在沮丧的 Agent，可以及时切换交互策略——放慢节奏、主动确认、降低信息密度。这与当前 AI Agent 研究中强调的**自适应交互**方向高度契合。

MoE 架构的泛化潜力

MoE 不仅是 LLM 扩展的主流路线（如 Mixtral、GPT-4 推测使用 MoE），在多模态融合领域同样展现出强大的灵活性。本研究证明，MoE 的动态路由机制可以自然地适应"不同情感-不同主导模态"的内在规律，为未来更大规模的多模态 MoE 模型提供了有力的实证基础。

总结

本研究展示了如何用 MoE 架构解决多模态情感识别中的一个核心矛盾：不同情感对不同模态的依赖程度截然不同，而固定融合策略无法处理这种异质性。通过让门控网络动态决定"哪个专家最懂当前这段对话的情感"，系统在保持计算效率的同时，在三个主流基准上取得了新的最优结果。

随着 AI 系统越来越多地介入日常对话场景，情感感知能力将从"锦上添花"变为"核心竞争力"。而 MoE 多模态架构，或许正是实现这一能力的最优解之一。