PEEU: 자율적 경험 탐색 및 역이용을 통한 GUI 에이전트 작업 계획 능력 향상

GUI 작업 계획에서 소규모 오픈소스 다중모태 대규모 언어 모델(MLLMs)의 약한 계획 능력과 크로스 웹사이트 일반화 부족 문제를 해결하기 위해, 본 연구에서는 Planning Experience Exploration and Utilization(PEEU)라는 새로운 방법을 제안합니다. 이 방법은 환경을 자율적으로 탐색하여 경험을 발견하고, 역이용 경험을 활용하여 엄격히 정렬된 상위 수준의 학습 데이터를 생성하여 모델 성능을 크게 향상시킵니다. 또한 본 연구는 Task Decomposition Hierarchy Analysis Framework(TDHAF)를 제안하여 저·중·고 세 가지 입자 수준에서 조합 일반화 행동을 체계적으로 분석합니다. 상위 수준 작업 훈련이 더 강력한 분포 외(OOD) 일반화 능력을 가져온다는 것을 발견했습니다. 실제 벤치마크 테스트에서 7B 파라미터 PEEU 모델은 30.6%의 정확도를 달성하여 훨씬 더 큰 Qwen2.5-VL-32B 모델을 능가했으며, 상위 수준 역이용 작업 구성과 경험 활용이 소규모 MLLMs의 계획 능력을 향상시키는 데 중요함을 입증했습니다.

배경

디지털 업무 자동화와 다중모태 웹 에이전트의 보급이 가속화되면서, 복잡한 그래픽 사용자 인터페이스(GUI) 작업을 인간 대신 수행하는 기술의 중요성이 커지고 있습니다. 특히 코스트 효율성과 데이터 프라이버시 측면에서 강점을 가진 소규모 오픈소스 다중모태 대규모 언어 모델(MLLMs)은 상용 폐쇄형 대형 모델과 차별화된 가능성을 지니고 있습니다. 그러나 이러한 소형 모델은 실제 GUI 작업 계획 과정에서 계획 능력의 취약성과 웹사이트 간 일반화 부족이라는 심각한 한계에 부딪히곤 합니다. 이는 모델이 사용자의 복잡한 지시를 실행 가능한 원자적 동작으로 효과적으로 분해하지 못하며, 다양한 환경에서의 적응력이 떨어지기 때문입니다. 본 연구는 이러한 소규모 모델의 한계를 극복하기 위해 계획 경험 탐색 및 활용(PEEU) 방법을 제안하며, 자율적 환경 탐색을 통한 경험 발견과 역이용 경험을 활용한 고품질 훈련 데이터 생성이라는 새로운 패러다임을 제시합니다.

심층 분석

PEEU 방법론은 기존 감독 미세 조정(Supervised Fine-Tuning) 방식과 달리, 강화학습과 데이터 합성을 결합하여 모델의 계획 전략을 최적화합니다. 모델은 미지의 또는 반구조화된 GUI 환경에서 자율적으로 탐색하며 시행착오를 통해 상태-동작 쌍의 경험 궤적을 수집합니다. 이후 시스템은 성공적인 작업 완수 궤적을 역이용 학습(Retroactive Learning) 기법으로 분석하여 핵심적인 고차원 의사결정 논리를 추출하고, 이를 현재 작업 목표와 엄격히 정렬된 훈련 샘플로 합성합니다. 이렇게 생성된 합성 데이터는 단순한 명령어를 넘어 작업 분해의 논리적 구조를 포함하고 있어, 모델이 미시적 조작 시퀀스뿐만 아니라 거시적 작업 구조를 이해하도록 돕습니다. 이를 검증하기 위해 연구진은 작업 분해 계층 분석 프레임워크(TDHAF)를 도입하여 저·중·고 세 가지 입자 수준에서의 조합 일반화 행동을 체계적으로 분석했습니다.

TDHAF 프레임워크는 저입자 수준을 클릭이나 입력 같은 원자적 기술, 중입자 수준을 중간 단계, 고입자 수준을 전체 작업 계획에 대응시킵니다. 분석 결과, 고차원 작업 훈련이 분포 외(OOD) 일반화 능력을 크게 향상시킨다는 사실이 밝혀졌습니다. 이는 모델이 단순히 하위 수준의 원자적 기술만 습득해서는 고차원 계획 능력을 갖추기 어렵고, 오히려 고차원 작업에 대한 명시적인 훈련이 미시적 조작 시퀀스 mastery보다 더 중요함을 시사합니다. 이러한 분석은 모델이 보이지 않는 웹사이트나 작업 변형 상황에서도 강건하게 작동하기 위해서는 작업의 거시적 구조에 대한 이해가 필수적임을 입증합니다.

산업 영향

PEEU 방법론의 성공은 오픈소스 AI 커뮤니티와 산업계에 실질적인 이점을 제공합니다. 소규모 모델이 정교한 경험 탐색을 통해 높은 성능을 달성할 수 있음을 입증함으로써, 연구진은 막대한 파라미터 수에 대한 의존도를 낮출 수 있었습니다. 이는 리소스가 제한된 엣지 디바이스나 클라우드 기반 독점 모델에 데이터를 전송할 수 없는 엄격한 프라이버시 요구 사항이 있는 산업 분야에서 효율적인 에이전트를 배포할 수 있는 길을 열었습니다. 로컬에서 복잡한 GUI 자동화를 실행할 수 있다는 점은 보안성을 높이고 지연 시간을 줄여 기업용 사용 사례에 매력적으로 작용합니다. 또한 TDHAF 프레임워크는 구성 일반화에 대한 후속 연구를 위한 표준화된 도구를 제공하며, 블랙박스 평가에서 벗어나 모델 성능을 진단하고 개선하는 구조화된 방법을 제시합니다.

산업계 관점에서 PEEU 기반 모델의 저비용·고일반화 특성은 소프트웨어 테스트, 로봇 프로세스 자동화(RPA), 개인 비서 개발 등 새로운 가능성을 열어줍니다. 이러한 응용 분야는 광범위한 인터페이스에 재훈련 없이 적응할 수 있는 에이전트를 필요로 하는데, PEEU는 이를 명시적으로 해결합니다. 이 방법은 더 민첩하고 비용 효율적인 자동화 솔루션을 개발하기 위한 청사진으로 작용하며, 소규모 오픈소스 모델이 복잡한 상호작용 시나리오에서 더 중심적인 역할을 수행할 수 있는 기반을 마련합니다. 이는 AI가 단순한 인식을 넘어 행동과 전략적 계획으로 진화하는 데 중요한 전환점이 됩니다.

전망

향후 PEEU의 성공은 상호작용 작업에 대한 소규모 다중모태 모델의 훈련 방식을 재정의하는 패러다임 전환을 시사합니다. 고차원 역이용 작업과 자율적 경험 발견에 대한 강조는 AI 에이전트가 수동적이지 않고 능동적인 계획자가 되는 미래를 보여줍니다. 이러한 연구 기반 위에 더 많은 연구가 쌓이면서 소규모 오픈소스 모델은 복잡한 상호작용 시나리오에서 더 중심적인 역할을 수행할 것으로 예상됩니다. 이는 AI가 단순한 지각과 인식을 넘어 더 깊은 수준의 행동과 전략적 계획으로 진화하는 것을 주도할 것입니다. 이 연구가 시사하는 궤적은 특정 도메인에서 소규모 모델과 대형 모델 간의 격차가 계속 좁혀질 것임을 의미합니다.

개발자들은 모델의 크기보다 효율적인 학습 메커니즘을 점점 더 우선시하게 될 것이며, 이는 더 지속 가능하고 접근 가능한 AI 기술로 이어질 것입니다. TDHAF와 같은 프레임워크가 표준 개발 파이프라인에 통합되면 현대 웹 인터페이스의 동적인 특성을 처리할 수 있는 강건한 GUI 에이전트의 생성이 가속화될 것입니다. 궁극적으로 PEEU 방법은 강력하면서도 효율적인 새로운 세대의 지능형 에이전트를 위한 토대를 마련하며, 다양하고 예측 불가능한 디지털 환경에서 자율적으로 작동할 수 있는 능력을 갖추게 됩니다. 경험 활용 기술의 지속적인 정제는 일반화와 정확성에서 더 큰 성과를 가져올 것이며, 금융부터 의료에 이르기까지 다양한 산업에서 자동화된 GUI 상호작용이 효율성에 필수적이 되는 시대에 광범위하게 채택될 것입니다.

Sources