HyperTool: 단일 단계 호출을 넘어 도구 기반 에이전트의 실행 세분성 재정의
본 논문은 도구 기반 LLM 에이전트에서 널리 발견되는 '실행 세분성 불일치' 문제를 해결하기 위해 혁신적인 해결책 HyperTool을 제안합니다. 기존 방식은 결정론적 도구 워크플로우를 수많은 원자 수준의 단일 단계 호출로 분해하여,冗장한 추론 과정을 생성하고 컨텍스트 창을 과도하게 소모하며 모델이 저수준 데이터 흐름 세부사항을 처리하도록 강요합니다. HyperTool은 단일 코드 블록으로 여러 도구를 호출하고, 반환값을 처리하며, 중간 결과를 로컬에서 전달할 수 있는 통합된 실행 가능 MCP 스타일 도구 인터페이스를 도입하여, 복잡한 하위 절차를 단일 외부 호출로 압축합니다. MCP-Universe 벤치마크 실험 결과, HyperTool이 다단계 도구 사용을 크게 향상시키는 것으로 나타났습니다. Qwen3-32B의 평균 정확도는 15.69%에서 35.29%로, Qwen3-8B는 9.93%에서 33.33%로 상승했으며, 이는 GPT-OSS 및 Kimi-k2.5 등의 선진 모델을 뛰어넘는 결과입니다.
배경
대규모 언어 모델(LLM) 기반 에이전트의 발전 과정에서 외부 도구 활용 능력은 복잡한 현실 문제를 해결할 수 있는지 평가하는 핵심 지표로 자리 잡았습니다. 그러나 현재 주류적으로 적용되고 있는 패러드임은 원자적인 단일 단계 도구 호출에 과도하게 의존하고 있습니다. 이러한 전통적인 워크플로우에서는 도구를 호출하고, 그 결과를 관찰하며, 값을 전달하는 모든 상호작용이 주요 추론 궤적 내에 직접적으로 노출됩니다. 이러한 설계는 결정론적인 도구 워크플로우가 로컬에서 실행 가능한 논리임에도 불구하고, 모델에게 반복적이고 가시적인 의사결정 단계로 펼쳐지도록 강요하는 심각한 '실행 세분성 불일치' 문제를 야기합니다. 이는 제한된 컨텍스트 창 자원을 과도하게 소모할 뿐만 아니라, 모델이 고차원적인 전략적 추론을 수행하는 동시에 저수준의 데이터 흐름 세부 사항을 관리하도록 강요하여 전체적인 효율성과 정확성을 저하시킵니다.
이러한 시스템적 비효율성을 해결하기 위해 연구진은 HyperTool이라는 새로운 프레임워크를 제안했습니다. HyperTool은 모델이 도구 실행을 인지하는 단위를 근본적으로 변경하는 것을 목표로 합니다. 모델이 복잡한 도구 상호작용을 단계별로 탐색하도록 강요하는 대신, HyperTool은 더 높은 수준의 추상화를 제공하여 도구 상호작용 시퀀스를 단일하고 통합된 단위로 계획하고 실행할 수 있게 합니다. 이 접근법은 기존 에이전트 시스템을 괴롭혀 온 컨텍스트 중복 및 제어 복잡성이라는 오랜 문제를 해결하고자 합니다. 복잡한 하위 절차를 단일 외부 호출로 축소함으로써, HyperTool은 모델이 중간 데이터 처리의 메커니즘에 매몰되지 않고 전략적 의사결정에 더 명확하게 집중할 수 있도록 지원합니다.
심층 분석
기술적 관점에서 HyperTool은 통합된 실행 가능한 Model Context Protocol(MCP) 스타일 도구 인터페이스를 도입합니다. 이 아키텍처 혁신은 모델의 출력을 단순한 도구 이름과 매개변수 쌍에서 전체 실행 로직을 포함하는 포괄적인 코드 블록으로 전환합니다. 이러한 코드 블록은 상당한 표현력을 지니고 있어, 모델이 기존 도구를 원래 스키마를 통해 호출하고, 반환값을 직접 조작하며, 실행 환경 내에서 중간 결과를 로컬로 전달할 수 있게 합니다. 결과적으로 이전에 여러 번의 왕복 상호작용이 필요했던 결정론적 도구 하위 절차는 효과적으로 단일 외부 호출로 '접힙니다'. 이러한 상호작용 단계의 축소는 모델의 인지 부하를 최소화하여, 모델이 더 높은 일관성과 낮은 지연 시간으로 복잡한 워크플로우를 처리할 수 있게 합니다.
모델이 새로운 인터페이스를 숙달할 수 있도록 훈련하기 위해 연구진은 크로스-도구 조합 작업에서 파생된 HyperTool 형식의 궤적 데이터를 합성했습니다. 이러한 궤적은 실제 MCP 환경에서 엄격하게 검증되어, 모델이 효율적인 도구 호출 코드를 작성하는 방법뿐만 아니라 도구 간 의존성과 데이터 흐름 논리를 이해하는 방법도 학습하도록 보장합니다. 이러한 훈련 전략은 실행의 컴팩트성과 논리의 연속성을 향상시켜, 전통적인 단계별 방법에서 흔히 볼 수 있는 논리적 파편화를 방지합니다. 이러한 패턴을 내부화함으로써 모델은 원자적 호출만으로는 이전에 달성할 수 없었던 투명성과 효율성의 수준으로 복잡한 다단계 작업을 실행할 수 있습니다.
산업 영향
HyperTool의 영향은 오픈소스 커뮤니티와 산업 응용 분야 모두에 걸쳐 상당히 광범위합니다. 에이전트 개발을 위한 더 효율적인 표준 인터페이스를 제공함으로써, HyperTool은 복잡한 도구 체인을 구축하는 기술적 장벽을 낮춥니다. 개발자들은 이제 더 쉽게 여러 외부 도구를 통합하고 관리할 수 있으며, 이는 연결된 서비스의 더 강력한 생태계를 육성합니다. 또한 컨텍스트 창의 무효한 점유를 줄임으로써, HyperTool은 대규모 모델 배포의 운영 비용을 낮추는 데 도움이 됩니다. 이러한 효율성 향상은 높은 빈도의 도구 호출이 필요한 상업적 시나리오에서 특히 중요하며, 이는 감소된 지연 시간과 낮은 컴퓨팅 오버헤드가 직접적으로 향상된 서비스 품질과 비용 효율성으로 이어질 수 있음을 의미합니다.
HyperTool은 또한 AI 에이전트 연구에서의 전략적 전환을 신호합니다. 이는 순수하게 모델 매개변수를 증가시키는 것에서 실행 아키텍처를 최적화하는 것으로 초점을 이동시킵니다. 이 프레임워크는 모델 크기를 대폭 증가시키지 않고도 모델이 환경과 상호작용하는 방식을 정교화함으로써 문제 해결 능력에서 상당한 개선을 달성할 수 있음을 보여줍니다. 이 통찰력은 모델이 더 많은 구조화된 실행 인터페이스를 탐색하도록 장려하며, 자동화 워크플로우, 데이터 분석 및 복잡한 의사결정 지원 시스템에서 LLM의 잠재력을 해방시킵니다. 더 높은 안정성과 정확도로 긴 컨텍스트 및 고위험 의사결정 시나리오를 처리할 수 있는 능력은 HyperTool을 차세대 실용적이고 고성능 AI 에이전트의 주요 촉진자로 위치시킵니다.
전망
MCP-Universe 벤치마크에서의 실험 결과는 HyperTool이 제공하는 상당한 성능 향상을 강조합니다. 이 프레임워크의 도입은 다단계 도구 사용 작업에서 질적 도약을 이끌었습니다. 구체적으로, Qwen3-32B 모델은 기준선인 15.69%에서 35.29%로 평균 정확도가 점프하여 성능을 두 배 이상 향상시켰습니다. similarly하게, 더 작은 Qwen3-8B 모델도 강한 적응력을 보여주어 평균 정확도가 9.93%에서 33.33%로 급상승했습니다. 이러한 개선은 저수준 데이터 관리 부담을 줄임으로써 모델이 더 많은 컴퓨팅 리소스를 고차원 전략적 계획에 할당할 수 있게 한다는 효과성을 강조합니다.
또한, HyperTool의 성능은 평균 정확도 측면에서 GPT-OSS 및 Kimi-k2.5와 같은 선진 모델의 성능을 능가합니다. 이 성취는 HyperTool 접근법의 기술적 우월성을 검증할 뿐만 아니라, 실행 세분성이 에이전트 성능에서 중요한 요소임을 시사합니다. 분야가 계속 발전함에 따라 HyperTool의 기본 원리는 미래 에이전트 아키텍처의 설계에 영향을 미칠 것입니다. 초점은 점점 더 인간의 개입을 최소화하여 복잡한 워크플로우를 처리할 수 있는 더 지능적이고 컨텍스트 인식형 실행 레이어를 만드는 방향으로 이동할 것입니다. 이 궤적은 실제 응용 분야에서 더 많은 능력을 갖춘 신뢰할 수 있고 효율적인 AI 에이전트의 개발을 촉진할 것으로 예상되며, 자율 AI 시스템의 성숙에서 중요한 한 걸음을 의미합니다.