SearchSwarm: 에이전트의 장기 심층 연구를 위한 위임 지능

대규모 언어 모델이 현실 세계의 복잡한 작업에 점점 더 많이 적용됨에 따라, 장기간 및 고맥락 요구 사항을 처리하는 것이 주요 과제가 되고 있습니다. 그러나 모델의 컨텍스트 창은 제한되어 있으며, 전통적인 단일 에이전트 방식은 무한히 증가하는 컨텍스트 수요에 대응하기 어렵습니다. 본 논문은 '위임 지능(Delegation Intelligence)' 개념을 소개하여, 메인 에이전트가 복잡한 작업을 효과적으로 분해하고, 하위 작업을 언제 누구에게 위임할지 결정하며, 하위 에이전트의 결과를 워크플로우에 통합하는 방법을 해결합니다. 이러한 훈련 데이터의 부족을 해결하기 위해 연구팀은 심층 연구 작업에 초점을 맞춘 하네스 프레임워크를 설계했습니다. 하위 에이전트의 행동을 제약하고 고품질 의사 결정 궤적을 기록함으로써 감독 미세 조정을 위한 데이터를 합성했습니다. 결과적으로 생성된 SearchSwarm-30B-A3B 모델은 BrowseComp 및 BrowseComp-ZH 벤치마크에서 각각 68.1과 73.3의 우수한 점수를 달성하여 동일한 규모의 다른 모델들을 능가했습니다. 이 연구는 모델 가중치와 훈련 데이터를 오픈소스로 공개할 뿐만 아니라, 장기 에이전트 작업의 컨텍스트 병목 현상을 해결하기 위한 새로운 기술적 경로를 제공합니다.

배경

대규모 언어 모델(LLM)이 단순한 질의응답을 넘어 심층 학술 연구나 복잡한 엔지니어링 디버깅과 같은 장기간의 현실 세계 과제에 적용되면서, 근본적인 아키텍처 한계가 드러나고 있습니다. 이러한 장기 작업은 필요한 문맥 정보의 양이 무한히 증가할 수 있다는 특징을 지니지만, 기존 모델의 컨텍스트 창(Context Window)에는 물리적인 상한선이 존재합니다. 전통적인 단일 에이전트 방식은 이러한 무한히 성장하는 문맥 수요를 감당하지 못해 성능 저하, 기억 상실, 또는 치명적인 망각 현상을 겪곤 합니다. 최근에는 메인 에이전트가 작업을 분해하고 하위 에이전트를 파견하여 컨텍스트 예산을 절약하는 다중 에이전트 시스템이 주목받고 있으나, 이 패러다임의 성공 여부는 '위임 지능(Delegation Intelligence)'이라는 핵심 능력에 달려 있습니다.

위임 지능이란 메인 에이전트가 복잡하고 모호한 목표를 실행 가능한 하위 작업으로 효과적으로 분해하고, 위임의 최적 시기와 대상을 정확히 판단하며, 하위 에이전트로부터 반환된 요약 결과를 주요 워크플로우에 원활하게 통합하는 고도화된 인지 능력을 의미합니다. 이는 단순한 병렬 처리를 넘어 작업 의존성과 정보 계층 구조에 대한 깊은 이해를 요구합니다. 그러나 자연어 처리 분야에는 이러한 효과적인 작업 위임 의사 결정 궤적을 명시적으로 포착한 대규모 고품질 데이터셋이 전무합니다. 오픈소스 커뮤니티는此类 데이터를 합성하거나 모델이 이러한 특정 기술을 습득하도록 훈련하는 체계적인 접근법이 부재한 상태였으며, 이는 강건한 장기 자율 에이전트 개발에 심각한 공백으로 남아 있었습니다.

심층 분석

연구팀은 위임 지능과 관련된 데이터 부족 및 훈련 문제를 해결하기 위해 특수한 '하네스(Harness)' 프레임워크를 중심으로 한 혁신적인 기술 방법론을 제시했습니다. 이 프레임워크는 모델이 제한 없는 자유 속에서 작동하도록 방치하는 것이 아니라, 구조화된 제약 조건을 부과하여 메인 모델이 고품질의 작업 분해 및 위임 결정을 내리도록 유도합니다. 핵심 혁신은 하위 에이전트의 행동을 엄격하게 규제하는 데 있습니다. 하위 에이전트의 출력 형식과 내용을 제약함으로써, 하네스는 반환된 결과가 간결하고 표준화되어 메인 에이전트의 후속 처리 단계와 직접 호환되도록 보장합니다. 이는 정보 과부하, 형식 불일치, 또는 컨텍스트 오염과 같이 장기 실행 에이전트 워크플로우를 종종 실패로 이끄는 일반적인 오류 모드를 방지합니다.

이렇게 제약된 환경 내에서 생성된 상호 작용 궤적은 자연스럽게 올바른 위임 논리를 인코딩합니다. 하네스가 기록하는 각 단계는 효과적인 작업 분할 및 결과 통합의 검증된 사례를 나타냅니다. 연구진은 이러한 고품질의 합성 궤적 데이터를 감독 미세 조정(Supervised Fine-Tuning, SFT)의 기초로 활용했습니다. 이 선별된 데이터셋으로 모델을 훈련시킴으로써, 하네스가 부과한 외부 규칙과 제약 조건이 모델의 가중치 내부로 내재화됩니다. 이 과정은 명시적인 절차적 지침을 암묵적인 '위임 지능'으로 효과적으로 변환합니다. 이 방법은 거대한 파라미터 규모 없이도 복잡한 작업 스케줄링 및 컨텍스트 관리 전략을 모델이 학습할 수 있게 하여, brute-force 계산 능력보다는 알고리즘적 유도를 통해 장기 작업 처리의 견고성을 본질적으로 향상시킵니다.

산업 영향

제안된 방법론의 실질적인 효용성은 심층 연구 작업에 특화된 SearchSwarm-30B-A3B 모델의 개발과 테스트를 통해 입증되었습니다. 평가는 에이전트의 장기간 정보 탐색 및 종합 능력을 테스트하도록 설계된 BrowseComp 벤치마크와 그 중국어 버전인 BrowseComp-ZH를 주요 플랫폼으로 진행되었습니다. 결과는 압도적이었습니다. SearchSwarm-30B-A3B는 BrowseComp에서 68.1점, BrowseComp-ZH에서는 73.3점이라는 높은 점수를 기록했습니다. 이 수치는 동급 규모의 다른 모델들 중 최상위권에 해당하며, 향상된 위임 지능이 가져온 상당한 성능 비약을 보여줍니다. 특히 중국어 벤치마크에서의 우수한 성과는 해당 위임 프레임워크의 다국어 적응력과 보편성을 강조합니다.

연구 과정에서 수행된 제거 실험(Ablation studies)은 하네스 프레임워크의 결정적인 역할을 더욱 부각시켰습니다. 분석 결과, 합성 훈련 데이터의 품질은 데이터 생성 과정에서 적용된 구조적 제약 조건과 직접적인 연관이 있음이 확인되었습니다. 또한, 이러한 외부 제약을 모델의 내부 능력으로 전환하는 데 있어 감독 미세 조정(SFT)이 필수적임을 검증했습니다. SFT 단계가 없을 경우 모델은 위임 논리를 일관되게 적용하지 못했으며, 이는 자율적인 신뢰성을 달성하기 위해 내재화 과정이 핵심임을 시사합니다. 이러한 지표들은 에이전트 조정 영역에서 합성 데이터 훈련의 tangible한 이점을 정량화하며, 향후 장기 작업 실행 개선 평가를 위한 재현 가능한 기준선을 제공합니다.

전망

SearchSwarm-30B-A3B 모델의 출시와 함께 하네스 프레임워크, 모델 가중치, 그리고 합성 훈련 데이터셋의 오픈소스 공개는 오픈소스 AI 커뮤니티에게 중요한 전환점을 의미합니다. 이러한 리소스를 공개함으로써 연구팀은 고급 에이전트 시스템 구축에 관심 있는 개발자와 연구자들의 진입 장벽을 크게 낮췄습니다. 이러한 기술의 민주화는 더 넓은 범위의 기여자가 위임 메커니즘을 정교화하고 새로운 응용 도메인을 탐구하며 기본 알고리즘을 개선할 수 있도록 하여 협력적 혁신을 촉진할 것으로 예상됩니다. 위임 작업을 위한 고품질 합성 데이터의 가용성은 향후 에이전트 훈련 파이프라인의 기반 자원이 될 것입니다.

장기적으로 볼 때, 이번 연구는 AI 에이전트가 단순한 작업 실행자에서 복잡한 프로젝트 관리자로 진화하는 신호탄입니다. 모델이 위임 지능에 숙달됨에 따라, 최소한의 인간 개입으로 장기 프로젝트를 관리할 수 있는 시스템의 등장을 예고합니다. 이러한 시스템은 실시간 피드백과 변화하는 조건에 따라 하위 작업 할당을 동적으로 조정하면서 장기간 일관된 전략적 목표를 유지할 능력을 갖추게 될 것입니다. 장기 메모리 관리와 지능형 위임의 결합은 이러한 에이전트의 자율성과 신뢰성을 더욱 강화하여, 과학적 발견, 소프트웨어 개발, 전략적 계획 수립 등에서 점점 더 정교한 과제를 해결할 수 있도록 할 것입니다. 궁극적으로 위임 지능은 현재 LLM 아키텍처의 고유한 한계를 극복하기 위한 새로운 기술적 경로를 제시하며,.raw 용량 확장보다는 지능형 조율 최적화에 초점을 맞추게 할 것입니다.

Sources

arXiv