M6：一個中文多模態預訓練模型

M6 是由阿里巴巴達摩院開發的大規模中文多模態預訓練模型，能夠同時處理文本、圖像等多種模態的數據。該模型在多個多模態基準測試中展現了卓越的性��，包括圖像描述生成、視覺問答、圖文匹配等任務。M6 採用統一的序列到序列架構，將不同模態的數據映射到共同的語義空間中，實現了跨模態的聯合預訓練。研究團隊在大规模中文語料和圖文對上進行了訓練，使其在中文語境下的多模態理解與生成能力達到領先水準。相關論文已發表，模型程式碼和預訓練權重正在逐步開源。