MoE 多模態對話情感識別:融合文本、音頻和視覺
這篇論文提出了一種基於 MoE(Mixture-of-Experts)架構的多模態對話情感識別方法。系統同時分析文本內容、語音音調和面部表情三種模態,通過專家混合機制動態選擇最有效的特徵組合來判斷說話人的情緒。
與傳統的特徵拼接方法不同,MoE 架構讓不同的專家網絡專注於不同的模態組合和情感類型。例如,某些情緒更多通過語調錶達(如諷刺),而另一些則更依賴面部表情(如驚訝)。
論文在多個對話情感基準上取得了新的 SOTA 結果。這項工作對構建更自然的 AI 對話系統有重要價值——讓 AI Agent 不僅理解說什麼,還理解怎麼說。
對話中的情感識別是人機交互的核心挑戰之一。人類在對話中表達情感的方式是多模態的——不僅通過文字內容,還通過語調、節奏、面部表情和肢體語言。
方法
論文使用三個獨立的編碼器分別處理三種模態:BERT 用於文本特徵提取、WavLM 用於音頻特徵提取、視覺 Transformer 用於面部表情特徵提取。然後通過一個 MoE 層將三種模態的特徵進行動態融合。
MoE 融合機制
MoE 層包含 8 個專家網絡,每個專家學習不同的模態組合模式。門控網絡根據輸入動態選擇 2-3 個最相關的專家進行計算。這比簡單的特徵拼接更高效,因爲不同情感在不同模態中的表達強度不同。
實驗結果
在 IEMOCAP、MELD 和 CMU-MOSEI 三個標準基準上取得新 SOTA:
- IEMOCAP:加權 F1 提升 2.3%
- MELD:加權 F1 提升 1.8%
- 關鍵改進在「諷刺」和「中性僞裝負面情緒」等難分類場景
行業趨勢關聯
這項工作是 Multimodal AI 在情感理解領域的重要進展。對於 Agentic AI 系統來說,理解用戶情緒可以幫助 Agent 調整交互策略——例如,當檢測到用戶沮喪時主動提供幫助。MoE 架構也與 Self-Improving AI 趨勢契合,通過專家網絡的動態選擇實現更高效的推理。