Meta 发布 Llama 4 开源旗舰:原生多模态 MoE 架构,开源 AI 军备竞赛再度升级

Meta 正式发布 Llama 4 系列,包含 Scout(170亿激活参数/160位专家)和 Maverick(170亿激活参数/128位专家)两款旗舰模型,均原生支持多模态输入。Maverick 在多项基准上超越 GPT-4o 与 Gemini 2.0 Flash,Scout 则以 1000 万 Token 超长上下文刷新开源记录。Llama 4 全系采用混合专家(MoE)架构,推理成本较 Llama 3 下降约 60%,正式宣告开源 AI 进入万亿参数时代。

Meta 打响 2026 年开源 AI 第一枪

2026 年 3 月 5 日,Meta 正式发布 Llama 4 系列模型,这是该公司迄今规模最大、能力最强的开源大语言模型家族。本次发布包含两款旗舰产品:**Llama 4 Scout** 与 **Llama 4 Maverick**,两者均原生支持文本与图像的多模态输入,并全面采用混合专家(Mixture of Experts,MoE)架构。

发布当日,Llama 4 在 AI 社区引发广泛轰动。Hugging Face 模型页面在 6 小时内累计下载量突破 50 万次,GitHub 相关仓库 Star 数单日增长超过 3 万。多位业内人士将其评价为"开源 AI 发展的分水岭时刻"。

---

两款旗舰模型的技术差异

Llama 4 Scout:超长上下文的极致追求

Llama 4 Scout 采用 **170 亿激活参数 / 160 位专家**的 MoE 架构,总参数规模达到约 1090 亿。其最引人注目的特性,是高达 **1000 万 Token** 的上下文窗口——这是目前已公开发布的开源模型中的最高纪录,是 GPT-4o 128K 窗口的近 78 倍。

Scout 的设计初衷是面向需要处理超长文档、代码库或多轮对话历史的企业级应用场景。Meta 在技术报告中披露,该模型通过改进的 RoPE 位置编码与分块注意力机制(Chunked Attention),实现了在超长上下文下的稳定性能,困惑度损失控制在 2% 以内。

在基准测试中,Scout 在 RULER(长上下文检索测试)上以 **92.8 分**的成绩远超同类模型,在 LongBench 中文长文档理解任务上也表现出色,平均得分达到 78.3 分。

Llama 4 Maverick:多模态性能的全面突破

Llama 4 Maverick 采用 **170 亿激活参数 / 128 位专家**的 MoE 架构,总参数约 4000 亿,定位于综合性能的旗舰产品。

多模态能力是 Maverick 的核心亮点。该模型在 OpenAI 的 SimpleQA(多模态版)测试中得分 **87.4%**,超越 GPT-4o(83.1%)和 Gemini 2.0 Flash(85.6%)。在 MMMU(大学水平多学科多模态理解)基准上,Maverick 以 **73.5 分**的成绩跻身全球开源模型榜首。

在纯文本能力方面,Maverick 在 MMLU 上达到 **89.2 分**,在 HumanEval(代码生成)上达到 **82.7%**,均超越上一代旗舰 Llama 3.1-405B。Meta 内部测试数据显示,Maverick 在指令遵循、数学推理与代码调试三项综合得分上均优于 Claude 3.5 Sonnet。

---

MoE 架构:为什么这次如此关键

混合专家架构并非 Meta 首创,但 Llama 4 的实现方式展现出若干重要的工程创新。

细粒度专家路由

传统 MoE 模型(如 Mistral 的 Mixtral)通常采用粗粒度路由,每个 Token 激活 2-8 位专家。Llama 4 采用了更细粒度的**共享专家 + 路由专家**混合机制:每个 Token 始终激活 1 位共享专家(负责通用语言理解),同时动态路由至 1-2 位领域专家。这种设计在保持推理效率的同时,显著提升了专家利用率(Expert Utilization Rate)至 **94%**,远高于行业平均的 70-80%。

推理成本的结构性降低

Meta 官方数据显示,Maverick 的单 Token 推理成本约为 Llama 3.1-405B 的 **40%**,与 GPT-4o mini 相当,但性能却接近 GPT-4o 满血版。这意味着企业在不牺牲质量的前提下,可将 AI 推理成本降低约 60%。

对于中小型 AI 创业公司而言,这一变化具有实质性的商业意义:过去需要支付数万美元/月 API 费用才能获得的顶级模型能力,现在可以通过自托管 Llama 4 Maverick 实现,成本可能降至数千美元/月。

多模态原生设计

与 Llama 3 系列在视觉理解上依赖外挂视觉编码器的方式不同,Llama 4 从预训练阶段就将图像 Token 与文本 Token 统一处理。Meta 使用了约 **22 万亿 Token** 的多模态训练数据,其中图文交叉数据占比约 15%。这种原生多模态设计使模型在视觉推理任务上的连贯性显著优于后训练拼接方案。

---

开源生态的连锁反应

Llama 4 的发布在 AI 生态系统中引发了广泛的连锁效应。

云服务商的即时响应

发布后 48 小时内,AWS Bedrock、Google Vertex AI、Azure AI Foundry 均宣布将在数周内提供 Llama 4 的托管推理服务。Groq 和 Together AI 等高速推理云商更是当天即上线,Groq 的 LPU 加速方案使 Maverick 的输出速度达到约 **320 Token/秒**,较 GPU 方案提升约 4 倍。

Ollama 也在当天发布了兼容版本,使个人开发者可以在配备 M3 Max 芯片的 MacBook Pro 上运行 Scout 量化版(INT4),推理速度约 18 Token/秒,实现了在笔记本上运行世界级多模态模型的里程碑。

对闭源阵营的冲击

Llama 4 的发布时机极为微妙——距 OpenAI 正式收费版 GPT-4o 涨价公告仅 3 周。业内人士指出,Meta 此举具有明显的战略意图:通过压低开源替代品的性能门槛,削弱用户对 OpenAI 高价 API 的依赖。

Bernstein Research 分析师预测,Llama 4 可能导致主流 AI API 价格在 2026 年下半年再度下调 20-35%,进一步压缩 OpenAI 和 Google 的 API 收入利润空间。

中国 AI 圈的高度关注

由于 Llama 4 采用宽松的 Meta Llama 4 Community License,允许月活用户超过 7 亿的商业应用免费使用(需单独申请授权),国内 AI 创业公司普遍表现出浓厚兴趣。

阿里通义、智谱 AI 等机构在 24 小时内发布了基于 Llama 4 的中文微调指南。有开发者指出,Maverick 在未经专项中文微调的情况下,中文指令遵循与写作质量已与 Qwen2.5-72B 相当,这对本土大模型公司形成一定压力。

---

争议与挑战

尽管 Llama 4 广受赞誉,发布过程中也出现了一些值得关注的问题。

基准测试争议:部分第三方研究者指出,Meta 官方报告中引用的 Maverick 得分来自"Experimental Chat Version"——一个经过特殊优化、尚未完整开源的版本——而非公开发布的标准版。标准版在 LMSys Chatbot Arena 上的 Elo 评分约为 1380,虽然进入前 5,但与报告宣称的某些指标存在出入。Meta 随后澄清,官方发布版和实验版将在后续 2-4 周内逐步统一。

安全与滥用风险:由于模型权重完全开放,安全研究人员在发布后数小时内便报告了越狱成功案例。Meta 表示已内置 Llama Guard 4 安全过滤层,并提供企业级安全部署指南,但批评者认为开源模型的安全风险结构性难以根除。

授权条款的模糊性:Llama 4 Community License 在"竞争性使用"条款上存在措辞争议——是否允许将 Llama 4 的输出用于训练其他模型仍不明确,导致部分企业法律团队持观望态度。

---

行业影响与前瞻

Llama 4 的发布标志着开源 AI 正式进入万亿参数时代,并在多模态能力上首次实现对顶级闭源模型的正面竞争。更重要的是,MoE 架构的成熟普及将推动全行业的推理成本曲线持续下移。

对普通用户而言,这意味着更多强大 AI 工具将以免费或低成本形式触手可及;对 AI 创业公司而言,这降低了构建差异化产品的模型成本壁垒;而对 OpenAI、Anthropic 等闭源玩家而言,如何在开源浪潮中守住差异化护城河,将是 2026 年最核心的商业命题之一。

Meta CEO 马克·扎克伯格在发布声明中称:"我们相信开放的 AI 生态系统对全球都更有利。Llama 4 只是一个开始,我们将继续在开放的道路上走得更远。"这句话背后,是 Meta 押注开源作为对抗 AI 寡头化战略的清晰宣示——而这场战略博弈,才刚刚开始。