Japan Government Tests 7 Domestic LLMs for 180K Civil Servants

배경

일본 디지털청(Digital Agency)은 2026년 3월 6일, 정부 생성형 AI 활용 환경인 '가버먼트 AI 겐나이(Government AI Gennai)' 플랫폼 내에서 7종의 국산 대규모 언어 모델(LLM) 검증 작업을 공식적으로 시작했다고 발표했다. 겐나이 플랫폼은 일본 중앙 정부 39개 부처 소속 약 18만 명 공무원에게 AI 서비스를 제공하는 핵심 인프라로, 이번 검증을 통해 국산 모델의 행정 실무 적용 가능성을 평가한다. 이번에 선정된 7개 모델은 2025년 12월 2일부터 2026년 1월 31일까지 진행된 공개 모집에서 15개 지원업체를 대상으로 한 엄격한 서류 심사 및 성능 평가 테스트를 거쳐 최종 선정되었다.

선정 기준은 단순한 기술력뿐만 아니라, 국내 개발 여부, 행정 실무에서의 유용성, 해외 주요 LLM 대비 성능 비교, 보안 조치, 학습 데이터의 법령 준수성, 그리고 정부 클라우드(Government Cloud) 상에서의 실행 보안 요구사항 등 다각적인 차원을 포괄했다. 이는 2025년 5월 디지털청이 제정한 '행정 진보 및 혁신을 위한 생성형 AI 조달 및 활용 관련 가이드라인'의 핵심 이행 과제 중 하나로, 2026년 4월 1일부터 전면 시행되는 해당 가이드라인의 구체적 실현 사례이다.

심층 분석

검증 대상이 된 7개 국산 모델은 일본 AI 산업의 다양한 기술적 접근과 기관적 배경을 반영하고 있다. NTT가 개발한 'tsuzumi 2'는 일본 최대 통신사 NTT의 수십 년간 축적된 자연어 처리 연구 노하우를 바탕으로, 비즈니스 및 행정 용어에 깊이 최적화된 일본어 이해 및 생성 능력을 자랑한다. 고객 클라우드(Customer Cloud)의 'CC Gov-LLM'은 정부 행정 용도로 특화되어 보안과 규정 준수 측면을 강화했으며, 행정 문서 처리 및 정책 분석 시나리오에 맞춰져 있다.

KDDI와 ELYZA가 공동 개발한 'Llama-3.1-ELYZA-JP-70B'는 메타(Meta)의 오픈소스 아키텍처를 기반으로 ELYZA가 일본어 특화 훈련을 적용한 700억 파라미터 모델로, 오픈소스 기반의 로컬라이징 능력을 보여준다. 소프트뱅크의 'Sarashina2 mini'는 경량화된 모델로서 소프트뱅크의 AI 투자 전략을 반영하며, NEC의 'cotomi v3'는 정부 정보 시스템 분야에서의 오랜 경험을 바탕으로 행정 애플리케이션에 강점을 가진다.

또한, 일본 최대 IT 서비스 기업인 후지쯔의 'Takane 32B'는 320억 파라미터 규모로, 슈퍼컴퓨터 '후가쿠' 및 양자 컴퓨팅 분야의 강력한 R&D 역량을 배경으로 한다. 일본을 대표하는 AI 스타트업인 Preferred Networks의 'PLaMo 2.0 Prime'은 딥러닝 프레임워크 및 응용 분야에서 국제적 역량을 인정받는 기업으로, 일본 스타트업 중 LLM 분야의 최고 수준을 대표한다. 특히 다수 모델은 경제산업성(METI)과 NEDO가 추진하는 GENIAC(생성형 AI 개발력 강화 프로젝트)의 자금 지원을 받아, 일본의 '관민 협력' 모델을 구현했다.

산업 영향

이번 검증은 일본 AI 산업의 '주권화(Sovereignty)' 전략을 가속화하는 중요한 전환점이 될 것이다. 현재 글로벌 AI 시장은 OpenAI, Google, Anthropic 등 미국 기업들이 압도적인 지위를 차지하고 있어, 일본은 데이터 보안, 기술 의존성 탈피, 그리고 일본어 및 문화적 정확성 유지라는 세 가지 주요 위험을 관리하기 위해 국산 모델 개발을 적극 추진하고 있다. GENIAC 프로젝트는 미국식 민간 주도 투자나 중국식 국가 주도 대규모 투입과는 달리, 정부가 기초 지원과 방향성을 제시하고 기업이 구체적인 R&D 및 상업화를 담당하는 중간 경로를 취함으로써 자원 집중과 중복 투자 방지에 기여하고 있다.

검증 기간 중 모델은 단순한 벤치마크 테스트를 넘어, 문서 초안 작성, 정책 분석, 데이터 정리, 시민 상담 응답 등 실제 행정 업무 시나리오에서의 성능을 심층 평가받는다. 이는 일본 AI 생태계가 기술적 완성도뿐만 아니라, 공공 부문에서의 실용성과 신뢰성을 확보하려는 노력을 보여준다. 또한, EU의 Mistral AI, UAE의 Falcon, 인도의 Sarvam 등 다른 국가들의 유사한 주권화 전략과 맥을 같이하며, 일본이 아시아 지역에서 AI 기술 자립 모델의 선도적 역할을 수행할 수 있는 기반을 마련했다.

전망

검증 결과는 2027년 4월 이후 일본 정부의 공식 AI 시스템 조달(유상 계약)에 직접적인 영향을 미칠 예정이다. 디지털청은 2026년 5월경 겐나이 플랫폼에서 대규모 실증 실험을 시작하고, 8월부터 국산 LLM의 정식 시용을 개시할 계획이다. 2027년 1월경 부분 검증 결과가 공개되며, 이를 바탕으로 우수한 모델들이 정부 AI 시스템으로 채택될 것이다. 이는 일본 AI 산업에 대한 자신감을 고취하고, 향후 국산 AI R&D에 대한 예산 확대를 촉진하는 계기가 될 것으로 예상된다.

물론 일본 국산 모델은 OpenAI의 GPT-5.4나 Google의 Gemini와 같은 최첨단 모델과의 성능 격차, 특히 파라미터 규모(최대 320억 파라미터 대 글로벌 트렌드의 수조 파라미터)에서 여전히 도전에 직면해 있다. 그러나 이번 검증의 궁극적 가치는 단순한 성능 경쟁을 넘어, 국산 AI 모델을 평가하고 선정하는 제도적 프로세스를 정립하는 데 있다. 일본이 특정应用场景(응용 시나리오)에 집중하고 언어 문화적 적응력을 강화하며 관민 협력 메커니즘을 구축함으로써, 미중 양국의 거대 투자 규모 경쟁과는 차별화된 AI 발전 경로를 제시할 수 있을지 주목된다. 이 실험의 성공 여부는 일본뿐만 아니라 유사한 입장의 중소 경제체들에게도 AI 주권 확보를 위한 중요한 참고 모델이 될 것이다.