MoE 多模態對話情感識別：融合文本、音頻和視覺

這篇論文提出了一種基於 MoE（Mixture-of-Experts）架構的多模態對話情感識別方法。系統同時分析文本內容、語音音調和面部表情三種模態，通過專家混合機制動態選擇最有效的特徵組合來判斷說話人的情緒。

與傳統的特徵拼接方法不同，MoE 架構讓不同的專家網絡專注於不同的模態組合和情感類型。例如，某些情緒更多通過語調錶達（如諷刺），而另一些則更依賴面部表情（如驚訝）。

論文在多個對話情感基準上取得了新的 SOTA 結果。這項工作對構建更自然的 AI 對話系統有重要價值——讓 AI Agent 不僅理解說什麼，還理解怎麼說。

對話中的情感識別是人機交互的核心挑戰之一。人類在對話中表達情感的方式是多模態的——不僅通過文字內容，還通過語調、節奏、面部表情和肢體語言。

論文使用三個獨立的編碼器分別處理三種模態：BERT 用於文本特徵提取、WavLM 用於音頻特徵提取、視覺 Transformer 用於面部表情特徵提取。然後通過一個 MoE 層將三種模態的特徵進行動態融合。

MoE 層包含 8 個專家網絡，每個專家學習不同的模態組合模式。門控網絡根據輸入動態選擇 2-3 個最相關的專家進行計算。這比簡單的特徵拼接更高效，因爲不同情感在不同模態中的表達強度不同。

在 IEMOCAP、MELD 和 CMU-MOSEI 三個標準基準上取得新 SOTA：

這項工作是 Multimodal AI 在情感理解領域的重要進展。對於 Agentic AI 系統來說，理解用戶情緒可以幫助 Agent 調整交互策略——例如，當檢測到用戶沮喪時主動提供幫助。MoE 架構也與 Self-Improving AI 趨勢契合，通過專家網絡的動態選擇實現更高效的推理。