NVIDIA发布Nemotron 3系列开源模型:Agentic AI专用,音视频语言三模态统一

NVIDIA推出了Nemotron 3系列开源模型,包括Nemotron 3 Ultra和Nemotron 3 Omni两个版本,专门为Agentic AI场景设计。这些模型的最大亮点是原生支持音频、视频和语言三种模态的统一理解和生成,使AI Agent能够"听得见、看得懂、说得出"。

Nemotron 3 Ultra定位高性能场景,参数量达数千亿级别,在Agent推理和工具使用benchmark上达到业界领先水平。Nemotron 3 Omni则面向边缘部署,在保持三模态能力的同时大幅缩减模型体积。

两者均采用开放权重许可(商业友好),配合NVIDIA NeMo平台提供微调和部署工具链。对于希望构建具备多模态感知能力的Agent系统的开发者,这一系列模型提供了从训练到部署的完整方案。

NVIDIA Nemotron 3:为Agentic AI量身定制的开源多模态模型

2026年3月,NVIDIA发布了Nemotron 3系列开源模型,这是首个专门为Agentic AI场景设计的多模态大语言模型。与通用LLM不同,Nemotron 3在架构和训练策略上进行了针对性优化,使其在工具调用、函数执行、多步推理和多模态理解等Agent核心能力上实现了显著提升。

设计哲学:Agent-First

大多数现有的LLM是为对话和文本生成场景设计的,Agent能力通常是后期通过微调或提示工程添加的。Nemotron 3采取了不同的路径:从训练数据构建到模型架构设计,都以Agent场景为第一优先级。

训练数据:Nemotron 3的训练数据中包含了大量的工具调用trace(API请求/响应对)、多步推理轨迹、以及错误恢复序列。这使得模型天然理解如何规划多步任务、如何调用工具、如何处理工具返回的错误信息并重试。

架构优化:模型架构在标准Transformer基础上增加了专门的Function Calling头和Tool Use注意力层。Function Calling头能够直接输出结构化的函数调用参数(JSON格式),无需额外的输出解析步骤。Tool Use注意力层使模型能够高效地利用工具返回结果作为后续推理的上下文。

三模态统一:音频、视觉、语言

Nemotron 3是首个在单一模型中统一音频、视觉和语言理解的Agent专用模型。这意味着Agent可以:

  • 听取语音指令并直接转化为工具调用序列
  • 理解截屏或照片中的信息并据此采取行动
  • 在同一个对话中无缝切换文本、语音和图像输入

三模态能力对Agent的实际应用场景至关重要。一个典型的企业Agent可能需要:听取用户的语音请求 → 查看相关的图表或文档截图 → 理解上下文后调用API执行操作 → 用文本或语音报告结果。Nemotron 3让这一流程在单一模型调用中完成,而不需要串联多个专用模型。

模型规格

Nemotron 3系列提供了多个规格,覆盖从边缘设备到数据中心的不同部署场景:

| 模型 | 参数量 | 上下文窗口 | 适用场景 |

|------|--------|-----------|---------|

| Nemotron 3 Nano | 8B | 32K | 边缘设备、手机端Agent |

| Nemotron 3 Pro | 70B | 128K | 企业级Agent、服务器部署 |

| Nemotron 3 Ultra | 340B MoE | 256K | 复杂多Agent系统、研究 |

所有模型都以开放权重发布,允许商业使用和微调。NVIDIA同时提供了完整的微调工具链(NeMo Framework)和优化推理引擎(TensorRT-LLM),使企业能够针对自身场景进行定制。

基准测试

在Agent专项基准测试中,Nemotron 3系列表现突出:

Tool Use Accuracy(工具调用准确率):Nemotron 3 Pro在Berkeley Function Calling Leaderboard上达到91.3%,超越GPT-4o的88.7%和Claude 3.5 Sonnet的89.2%。

Multi-Step Reasoning(多步推理):在AgentBench上,Nemotron 3 Pro得分74.2,优于同参数级别的所有开源模型。

Multimodal Agent Tasks(多模态Agent任务):在新发布的MM-Agent基准上,Nemotron 3 Pro是唯一一个在音频、视觉和文本Agent任务上都进入前三的模型。

对开源AI生态的影响

Nemotron 3的发布意义不仅在于技术性能,更在于它改变了开源AI Agent的能力上限。此前,构建高质量的AI Agent通常需要依赖GPT-4o或Claude等闭源API。Nemotron 3的出现使得企业可以在自己的基础设施上部署性能接近闭源模型的Agent系统,这对数据安全敏感的行业(金融、医疗、政府)尤为重要。

同时,NVIDIA通过将Nemotron 3与其硬件生态(GPU + TensorRT-LLM)深度绑定,进一步巩固了其在AI基础设施市场的主导地位。

此外,这一发展趋势反映了全球技术竞争格局的深刻变化。随着各国政府和企业对AI技术投资的持续加大,相关的法律法规框架也在不断完善。监管机构需要在促进创新和保护用户权益之间找到平衡点。

从产业角度看,这种变化将推动更多跨领域的合作与整合。传统行业与AI技术的融合将创造出新的商业模式和价值链。同时,人才培养和技术标准化也成为行业发展的关键因素。

展望未来,我们可以预期这一领域将继续快速发展,带来更多创新应用和解决方案。企业需要保持敏锐的市场嗅觉,及时调整战略方向,以适应技术发展的新趋势。用户体验的提升和数据安全的保障将成为竞争的核心要素。

此外,这一发展趋势反映了全球技术竞争格局的深刻变化。随着各国政府和企业对AI技术投资的持续加大,相关的法律法规框架也在不断完善。监管机构需要在促进创新和保护用户权益之间找到平衡点。

从产业角度看,这种变化将推动更多跨领域的合作与整合。传统行业与AI技术的融合将创造出新的商业模式和价值链。同时,人才培养和技术标准化也成为行业发展的关键因素。

展望未来,我们可以预期这一领域将继续快速发展,带来更多创新应用和解决方案。企业需要保持敏锐的市场嗅觉,及时调整战略方向,以适应技术发展的新趋势。用户体验的提升和数据安全的保障将成为竞争的核心要素。