日本政府启动7款国产大模型验证,18万公务员将使用'源内'AI系统

日本数字厅于2026年3月6日正式宣布,在政府AI利用环境"源内(ガバメントAI・源内)"平台中启动7款国产大型语言模型的验证工作。这7款模型是从15家申请者中经过严格的书面审查和评估测试选拔而出,涵盖了日本AI产业的核心力量:NTT的tsuzumi 2、客户云(カスタマークラウド)的CC Gov-LLM、KDDI与ELYZA共同开发的Llama-3.1-ELYZA-JP-70B、软银的Sarashina2 mini、NEC的cotomi v3、富士通的Takane 32B,以及Preferred Networks的PLaMo 2.0 Prime。这些模型将面向全部39个中央政府机关约18万名公务员进行大规模实证实验,评估其在行政实务中的实际应用能力。

这一举措是日本政府推动AI"主权化"战略的重要组成部分。在OpenAI、Google、Anthropic等美国公司主导全球AI市场的背景下,日本政府积极扶持国产大模型的发展,既出于数据安全和技术自主的考量,也有保护日本语言文化特殊性的战略意图。多款入选模型得到了经济产业省和NEDO推进的GENIAC(生成AI开发力强化项目)的资金支持,体现了日本"官民协作"推动AI发展的独特模式。验证预计于2026年5月启动,8月开始正式试用国产模型,结果将于2027年1月公布。

展望未来,这次大规模验证的结果将直接决定2027年4月以后哪些国产模型能够成为政府正式采购的AI系统。这不仅是对日本国产AI技术实力的全面检验,更将为日本在全球AI竞争中确立自身的技术路线和产业地位奠定基础。如果国产模型能够在行政实务中展现出与海外顶尖模型相当的表现,将极大提振日本AI产业的信心,并可能推动更多亚洲国家效仿日本的"AI主权化"路线。

日本政府启动7款国产大模型验证:深度分析报告

一、事件背景

2026年3月6日,日本数字厅正式发布公告,宣布在政府生成AI利用环境"源内(AI源内)"中选定7款国产大型语言模型进入验证阶段。"源内"平台是日本政府为推进行政效率和AI利用而构建的核心基础设施,面向全部39个中央政府机关约18万名公务员提供AI服务。

此次选定的7款模型是在2025年12月2日至2026年1月31日的公开募集中,从15家申请者中经过严格的书面审查和评估测试选拔而出。选定基准包括:国内开发模型、行政实务可用性能、与海外主要LLM的性能对比、安全性措施、训练数据的法令合规性、以及在政府云()上运行的安全性要求等多个维度。

这一举措是日本政府在AI领域一系列战略布局的延续。2025年5月,数字厅制定了"行政的进化与革新的生成AI调达和利活用相关指南",并于2026年4月1日起全面适用。国产模型的验证工作正是这一指南的核心实施项目之一。

二、入选模型详细分析

7款入选的国产大模型各有特色,代表了日本AI产业的不同技术路线:

NTT tsuzumi 2:由日本最大的电信运营商NTT开发,是tsuzumi系列的最新版本。该模型在日语理解和生成方面具有突出优势,特别针对商务和行政用语进行了深度优化。NTT在自然语言处理领域拥有数十年的研究积累,tsuzumi 2继承了这一技术传统。

CC Gov-LLM(客户云):这是一款专门为政府行政用途设计的大语言模型,在安全性和合规性方面进行了特别强化。该模型针对行政文书处理、政策分析和市民服务等场景进行了专项优化。

Llama-3.1-ELYZA-JP-70B(KDDI与ELYZA共同开发):这是一款基于Meta开源的Llama 3.1架构、由ELYZA进行日语特化训练的70亿参数模型。KDDI作为日本第二大电信运营商,与AI专业公司ELYZA的合作展示了日本产业界在利用开源基础上构建本土化模型的能力。

Sarashina2 mini(软银):由日本第三大电信运营商软银开发的轻量级大语言模型。软银在孙正义的领导下一直是AI领域的积极投资者,Sarashina2 mini代表了其在自主AI模型开发方面的实质性努力。

cotomi v3(NEC):由日本老牌IT企业NEC开发,cotomi系列是NEC在大语言模型领域的核心产品线。NEC在政府信息系统领域拥有深厚的积累,cotomi v3在行政应用场景中具有独特优势。

Takane 32B(富士通):由日本最大的IT服务企业富士通开发的320亿参数模型。富士通在超级计算机(富岳)和量子计算等前沿技术领域拥有强大的研发实力,Takane 32B受益于这一技术基础。

PLaMo 2.0 Prime(Preferred Networks):Preferred Networks是日本最具影响力的AI初创公司之一,在深度学习框架和应用方面拥有国际领先的技术实力。PLaMo 2.0 Prime代表了日本创业公司在大模型领域的最高水平。

三、GENIAC项目与官民协作模式

多款入选模型得到了经济产业省和NEDO(新能源产业技术综合开发机构)推进的GENIAC项目(生成AI开发力强化项目)的资金支持。以楽天AI 3.0为例(虽未入选本次验证,但属于GENIAC生态),该模型在GENIAC第三期中获得了开发费用的部分补助。

GENIAC项目体现了日本"官民协作"推动AI发展的独特模式。与美国主要依赖私营部门投资、中国采用国家主导大规模投入的模式不同,日本选择了政府提供基础支持和方向引导、企业负责具体研发和商业化的中间路线。这种模式的优势在于能够集中有限资源、避免重复投资,劣势则是可能限制创新的自由度和速度。

四、验证流程与时间线

根据数字厅公布的计划,国产模型的验证将按照以下时间线推进:

2026年5月前后:在"源内"平台上启动大规模实证实验。2026年8月前后:开始正式试用国产LLM模型。验证期间:评估模型在对话型AI服务和行政实务专用AI应用中的表现。2027年1月前后:公布部分验证结果。2027年4月以后:基于验证结果,优秀模型将作为政府AI系统进行有偿调达(正式采购)。

验证内容不仅限于模型的基础性能测试,还将深入评估模型在实际行政工作场景中的表现,包括文书起草、政策分析、数据整理、市民咨询应答等多种任务类型。

五、AI主权化战略的全球背景

日本政府推动国产大模型验证的深层动因,是全球范围内日益升温的"AI主权化"趋势。在当前全球AI市场中,OpenAI、Google、Anthropic等美国公司占据绝对主导地位。对于日本这样一个拥有独特语言文化体系的国家来说,完全依赖海外AI模型存在多重风险:

数据安全风险:政府行政数据涉及国家安全和公民隐私,使用海外公司的AI模型可能面临数据泄露或被迫共享的风险。技术依赖风险:如果核心AI能力完全掌握在海外公司手中,日本在关键技术领域的自主权将受到严重制约。语言文化风险:海外模型在日语理解、日本文化背景和行政用语等方面的能力可能不如本土模型精准。

欧盟、韩国、印度等国家和地区也在推进类似的AI主权化战略。日本此次的国产模型验证,与法国Mistral AI、阿联酋Falcon、印度Sarvam等国际案例形成了呼应,反映了一个全球性的趋势:各国政府正在积极确保在AI时代的技术自主权。

六、挑战与展望

日本国产大模型面临的最大挑战是与OpenAI GPT-5.4、Google Gemini等国际顶尖模型的性能差距。从参数规模来看,入选模型中最大的富士通Takane也仅有320亿参数,而全球前沿模型已经进入万亿参数时代。如何在有限的计算资源和研发投入下,开发出在特定场景中能够与国际模型匹敌的产品,是日本AI产业需要回答的核心问题。

然而,这次验证的意义不仅在于性能竞赛。它更重要的价值在于建立一套评估和选拔国产AI模型的制度化流程,为日本AI产业的可持续发展提供政策支撑和市场保障。如果验证结果能够证明国产模型在特定行政场景中具有实用价值,将极大提振日本AI产业的信心,并可能推动更多预算投入国产AI研发。

从更长远的视角来看,日本的做法为其他中小型经济体提供了一个有价值的参考模板:在无法与美中两国在AI投资规模上竞争的情况下,通过聚焦特定应用场景、强化语言文化适配、建立官民协作机制,走出一条差异化的AI发展路径。