EnvFactory: 실행 가능 환경 합성과 견고한 강화학습을 통한 도구 사용 에이전트 확장
본 논문은 대규모 언어 모델의 도구 사용 능력 개발을 위한 에이전트 강화학습(Agentic RL)에서 두 가지 중요한 병목현상을 해결하는 완전 자동화 프레임워크 EnvFactory를 제안합니다. 즉, 확장 가능하고 견고한 실행 환경의 부족과 암묵적 인간 추론을 포착한 실제 훈련 데이터의 부재입니다. 기존 방법은 고가의 실제 API, 환각 발생이 쉬운 LLM 시뮬레이터, 또는 단일 턴 합성 환경에 의존하며, 합성 궤적이 과도하게 지정되어 자연스러운 인간 의도보다는 지시 시퀀스에 가까운 경우가 많습니다. EnvFactory는 실제 리소스를 자율적으로 탐색하고 검증하여 상태 실행 가능한 도구 환경을 발견한 후, 위지성 감각 샘플링과 보정 정제를 통해 자연스러운 다중 턴 궤적을 합성하여 암묵적 의도를 가진 근접 쿼리를 생성합니다. 7개 도메인에 걸쳐 검증된 85개 환경만 사용하여 EnvFactory는 2,575개의 SFT 및 RL 궤적을 생성했습니다. 선행 작업에 비해 환경 수가 5분의 1에 불과함에도 불구하고, 본 방법은 훈련 효율성과 하류 성능 모두에서 우수한 결과를 보였으며, Qwen3 시리즈 모델을 BFCLv3에서 최대 15%, MCP-Atlas에서 8.6%, τ²-Bench 및 VitaBench와 같은 대화 벤치마크에서 6% 향상시켰습니다. EnvFactory는 Agentic RL에 확장 가능하고 확장되며 견고한 기반을 제공합니다.
배경
대규모 언어 모델(LLM)에 도구 사용 능력을 부여하는 것은 현재 인공지능 연구의 핵심 과제 중 하나이며, 에이전트 강화학습(Agentic RL)은 이를 달성하기 위한 결정적인 메커니즘으로 주목받고 있습니다. 그러나 이 분야는 확장 가능하고 견고한 실행 환경의 부족과, 암묵적인 인간 추론을 포착하는 실제 훈련 데이터의 부재라는 두 가지 구조적 병목현상으로 인해 장기적으로 제약되어 왔습니다. 기존 솔루션들은 비용이 많이 드는 실제 세계 API에 의존하거나, 환각 현상이 빈번한 LLM 시뮬레이터를 사용했으며, 종종 단일 턴으로 제한된 합성 환경을 구축했습니다. 이러한 환경들은 미리 수집된 문서를 기반으로 구축되는 경우가 많아, 생성된 합성 궤적이 자연스러운 인간 의도보다는 경직된 지시 시퀀스처럼 보이는 과도하게 지정된 특성을 띠었습니다. 이러한 데이터 분포의 편차는 강화학습 알고리즘의 효과를 심각하게 저해하는 원인이 되었습니다.
이러한 한계를 해결하기 위해 연구팀은 EnvFactory라는 완전 자동화된 프레임워크를 제안했습니다. EnvFactory는 환경 구축과 데이터 합성이라는 두 가지 난제를 동시에 해결하도록 설계되었으며, 실제 세계의 리소스를 자율적으로 탐색하고 검증하여 상태 실행 가능한 도구 환경을 발견합니다. 이는 수동 코딩이나 고가의 API 구독 없이도 안정적인 학습 기반을 마련한다는 점에서 패러다임 전환을 의미합니다. 프레임워크는 발견된 환경이 실행 가능할 뿐만 아니라 상태 일관성을 유지하도록 보장하여, 전통적인 방법에서 환경 불안정으로 인해 자주 발생하는 훈련 실패를 방지합니다. 이를 통해 에이전트는 더 신뢰할 수 있는 샌드박스 환경에서 학습할 수 있게 되었습니다.
데이터 합성 영역에서 EnvFactory는 자연스러운 다중 턴 상호작용 궤적을 생성하기 위해 혁신적인 샘플링 및 정제 전략을 사용합니다. 위지성 감각 샘플링(Topology-aware sampling)은 다양한 도구 간의 복잡한 의존 관계와 상호작용 논리를 포착하여, 생성된 궤적이 자연스러운 인간의 사용 패턴과 일치하도록 합니다. 이는 보정 정제(Calibration-refined) 생성 프로세스와 결합되어, 기계적인 지시 시퀀스를 암묵적인 인간 의도가 담긴 자연스러운 대화로 변환합니다. 결과적으로 생성된 데이터는 인간 사용자의 미묘하고 종종 말로 표현되지 않은 추론 과정을 반영하는 근접 쿼리(Grounded queries)를 포함하게 되며, 이는 에이전트가 더 복잡하고 현실적인 상호작용 모드에서 의사결정 전략을 학습할 수 있도록 돕습니다.
심층 분석
EnvFactory의 기술적 아키텍처는 환경 검증과 데이터 생성 접근 방식에서 높은 수준의 자동화와 지능화를 특징으로 합니다. 프레임워크는 먼저 실제 세계의 리소스를 자율적으로 스캔하여 잠재적인 도구 인터페이스를 식별하고, 각 후보를 실행 가능성과 상태 일관성을 확인하기 위한 엄격한 검증 과정에 부칩니다. 이 검증 단계는 훈련에 사용되는 환경이 안정적이고 신뢰할 수 있도록 보장하여, 이전의 Agentic RL 접근 방식이 안고 있던 환경의 취약성 문제를 직접적으로 해결합니다. 이러한 도구들의 상태 실행 가능성을 검증함으로써 EnvFactory는 실제 세계 API 상호작용에서 흔히 발생하는 정의되지 않은 동작이나 시스템 오류의 위험 없이 에이전트가 학습할 수 있는 견고한 환경을 조성합니다. 이 자동화된 검증 메커니즘은 훈련 환경 준비에 필요한 인력을 크게 줄여주어, 가용 리소스의 신속한 확장을 가능하게 합니다.
환경이 확립되면 EnvFactory는 위지성 감각 샘플링과 보정 정제 모듈을 사용하여 훈련 데이터를 합성합니다. 위지성 감각 샘플링은 도구 간의 구조적 관계를 분석하여 어떤 도구들이 빈번하게 함께 사용되는지, 그리고 어떤 순서로 사용되는지를 식별합니다. 이 분석을 통해 프레임워크는 구조적으로 일관성이 있고 인간의 작업 실행 논리적 흐름을 반영하는 궤적을 생성할 수 있습니다. 이어지는 보정 정제 모듈은 이러한 궤적의 자연스러움을 높이는 역할을 합니다. 이는 상호작용의 언어와 의도를 조정하여 단순한 명령의 나열이 아니라 소프트웨어 시스템과 인간이 자연스럽게 소통하는 방식을 모방한 유동적인 대화가 되도록 만듭니다. 이 과정을 통해 생성된 근접 쿼리는 암묵적인 의도를 포함하게 되어, 에이전트가 사용자 요청을 해석하고 응답하는 방법을 학습하는 데 더 풍부한 컨텍스트를 제공합니다.
이러한 기술적 구성 요소의 유효성은 광범위한 실험을 통해 입증되었으며, 이는 프레임워크가 현저히 줄어진 리소스 요구 사항으로도 높은 성능을 달성할 수 있음을 보여줍니다. 보고된 연구에서 연구팀은 7개의 서로 다른 도메인에 걸쳐 있는 단 85개의 검증된 도구 환경만 사용했습니다. 이 숫자는 선행 연구에서 일반적으로 사용된 환경 수의 단 5분의 1에 불과하지만, 2,575개의 고품질 SFT 및 RL 궤적을 생성하기에 충분했습니다. 이 단계에서 수행된 아블레이션 연구는 위지성 감각 샘플링과 보정 정제 모듈의 개별 기여도를 확인했으며, 둘 다 필요한 암묵적인 의도와 구조적 일관성을 갖춘 궤적을 생산하는 데 필수적임을 보여주었습니다. 이 결과는 Agentic RL에서 성능 향상의 주요 동인이 환경의 양이 아니라 데이터의 품질임을 시사합니다.
산업 영향
EnvFactory가 달성한 성능 향상은 상당하며, 여러 벤치마크 스위트에서 검증되어 대규모 언어 모델의 도구 사용 능력을 향상시키는 데 그 효과가 입증되었습니다. EnvFactory에서 생성된 데이터로 훈련된 모델, 특히 Qwen3 시리즈는 도구와 상호작용하고 복잡한 사용자 지시를 이해하는 능력에서 현저한 개선을 보였습니다. 다양한 컨텍스트에서 모델의 도구 사용 능력을 측정하는 BFCLv3 벤치마크에서 Qwen3 모델은 최대 15%의 성능 향상을 기록했습니다. 이는 EnvFactory 데이터로 훈련된 에이전트가 주어진 작업에 대해 올바른 도구를 선택하고 실행하는 데 훨씬 더 숙련되어 있음을 나타냅니다. 마찬가지로, 다중 턴 도구 사용을 평가하는 MCP-Atlas 벤치마크에서 모델은 8.6% 향상되었으며, 이는 프레임워크가 순차적 의사결정과 컨텍스트 유지 능력을 향상시킬 수 있음을 다시 한번 확인시켜 주었습니다.
도구 사용 특정 벤치마크 외에도 EnvFactory는 에이전트 상호작용의 자연스러움과 일관성을 평가하는 대화 벤치마크에서도 눈에 띄는 개선을 제공했습니다. 대화 품질과 사용자 만족도에 초점을 맞춘 τ²-Bench와 VitaBench에서 EnvFactory 데이터로 훈련된 모델은 6%의 개선을 달성했습니다. 이는 합성 궤적에 내재된 암묵적인 의도와 자연스러운 언어 흐름이 에이전트가 더 인간적인 응답을 생성하도록 도와 전반적인 사용자 경험을 개선한다는 것을 시사합니다. 단 85개의 환경으로 이러한 향상을 달성할 수 있다는 점은 EnvFactory 접근 방식의 효율성을 강조하며, 방대한 실제 세계 API 저장소나 방대한 데이터셋에서 훈련할 컴퓨팅 리소스에 접근하지 못하는 조직들에게도 실현 가능한 솔루션이 됨을 의미합니다.
EnvFactory의 영향력은 즉각적인 성능 지표를 넘어 AI 개발의 더 넓은 생태계로 확장됩니다. Agentic RL을 위한 확장 가능하고 견고한 기반을 제공함으로써, 이 프레임워크는 고급 AI 에이전트를 구축하려는 연구자와 개발자의 진입 장벽을 낮춥니다. 환경 발견과 데이터 합성의 자동화된 특성은 조직이 환경 생성의 수동적 노력으로 인해 병목 현상을 겪지 않고 에이전트 설계를 신속하게 반복할 수 있게 합니다. 이 효율성은 도구 사용 능력 개발과 유지에 드는 비용과 시간이 prohibitive할 수 있는 산업 환경에서 특히 가치 있습니다. EnvFactory는 더 복잡하고 비용 효율적으로 정교한 에이전트를 배포할 수 있는 경로를 제공하여, 복잡한 비즈니스 환경에서 AI 기술의 채택을 가속화합니다.
전망
EnvFactory의 도입은 Agentic RL의 진화에서 중요한 한 걸음을 의미하며, 수동적이고 자원 집약적인 데이터 준비에서 자동화되고 확장 가능한 합성으로의 패러다임 전환을 나타냅니다. 최소한의 환경 수로 고품질 훈련 데이터를 생성할 수 있는 프레임워크의 성공은 향후 연구가 모델의 규모나 데이터의 양뿐만 아니라 훈련 데이터의 품질과 구조에 더 집중하게 될 것임을 시사합니다. EnvFactory가 사용하는 위지성 감각 샘플링과 보정 정제 기술은 인간의 의도와 상호작용 논리의 미묘한 차이를 포착하는 데이터를 생성하기 위한 새로운 템플릿을 제공합니다. 이러한 방법이 정제되고 확장됨에 따라 다른 연구 그룹에 의해 채택되어 도구 사용 에이전트의 최전선(State-of-the-art) 수준을 전반적으로 향상시킬 것으로 예상됩니다. 앞으로 EnvFactory가 Agentic RL을 위한 기반 인프라로 역할을 할 잠재력은 큽니다. 프레임워크가 더 많은 도메인을 커버하고 더 다양한 도구와 통합되도록 확장됨에 따라, 더 다재다능하고 자율적인 AI 시스템의 개발이 가능해질 것입니다. 새로운 환경을 자동적으로 발견하고 검증할 수 있는 능력은 에이전트가 인간의 최소한의 개입으로만 새로운 도구와 플랫폼에 적응할 수 있게 하여, 동적 실세계 환경에서 도구와 인터페이스가 끊임없이 진화하는 상황에서도 그 견고성과 일반화 능력을 향상시킵니다. 이러한 적응 능력은 AI 에이전트의 장기적 생존 가능성에 필수적입니다. 또한, EnvFactory의 데이터 합성 과정에서 암묵적인 의도와 자연스러운 상호작용을 강조하는 것은 AI 에이전트가 효율적인 도구 사용자를 넘어 공감적이고 직관적인 협력자가 되는 미래를 향한 방향성을 제시합니다. 인간 사용자의 미묘한 단서와 말로 표현되지 않은 필요를 반영하는 데이터로부터 학습함으로써, 에이전트는 더 개인화되고 컨텍스트에 민감한 도움을 제공할 수 있을 것입니다. 이러한 자연스럽고 직관적인 인간-컴퓨터 상호작용으로의 전환은 인간이 AI와 함께 일하는 방식을 변화시켜, 일상생활에서 AI를 더 매끄럽고 생산적인 부분으로 만들 잠재력을 가지고 있습니다. 분야가 계속 발전함에 따라 EnvFactory는 자동화된 지능형 데이터 합성이 에이전트 AI 시스템의 전체 잠재력을 해제하는 데 얼마나 강력한지 입증하는 사례로 남을 것입니다.
EnvFactory의 더 넓은 영향력에는 오픈소스 커뮤니티에 대한 기여도 포함됩니다. 환경 발견과 데이터 합성을 위한 투명하고 재현 가능한 프레임워크를 제공함으로써, EnvFactory는 전 세계 연구자들 간의 협력과 혁신을 장려합니다. 이러한 도구의 가용성은 고품질 훈련 데이터에 대한 접근을 민주화하여, 작은 팀과 독립 연구자들이 대규모 조직과 경쟁하며 고급 AI 에이전트를 개발할 수 있게 합니다. 이러한 민주화는 다양한 관점과 사용 사례에 의해 주도되는 다양하고 활기찬 AI 생태계를 육성하는 데 필수적입니다. EnvFactory가 계속 진화함에 따라, 그것은 도구 사용, 복잡한 추론, 인간-기계 상호작용에서의 진전을 주도하며 Agentic AI의 미래를 형성하는 데 중심적인 역할을 할 것으로 예상됩니다.