현재 관찰을 넘어: 제어 가능한 비마르코프 게임에서 멀티모달 LLM의 기억 및 추론 능력 평가

이 논문은 제어 가능한 비마르코프 환경에서 멀티모달 대규모 언어 모델(MLLMs)을 평가하기 위한 RNG-Bench 벤치마크 스위트를 제시한다. 폐쇄형 정책 배포의 핵심 과제인 비마르코프성 문제를 다룬다. 기존 벤치마크가 전체 상태를 노출하거나 숨겨진 상태 재구성을 다른 능력과 혼동하는 것과 달리, RNG-Bench는 과거 관찰을 재구성하고 이에 기반해 행동하는 능력을 분리해 평가한다. Match-Pair와 3D Maze 두 개의 게임으로 구성되며, 그리드 크기, 시각 모드, 관찰 모드 세 차원에서 난이도를 제어할 수 있다. 최고 구성에서는 약 128K 토큰 컨텍스트와 350장의 이미지를 처리해야 한다. "메모리 갭" 지표를 도입하여 최첨단 모델의 오류가 주로 의사결정 실패가 아닌 초기 관찰의 잊힘에서 비롯됨을 발견했다. 또한 최적 정책 궤적에서 Qwen3.5-9B를 파인튜닝하여 일반 멀티모달 능력을 해치지 않고 RNG-Bench 성능을 크게 향상시켰다. 이는 장기 기억과 공간 추론 평가 및 향상을 위한 새로운 방향을 제시한다.

배경

멀티모달 대규모 언어 모델(MLLM)을 폐쇄형 정책 에이전트로 배포하는 과정에서 직면하는 가장 중요한 공학적 과제는, 이후 시간 단계에서 더 이상 보이지 않는 관찰 데이터를 기반으로 결정을 내려야 한다는 점입니다. 이러한 상황은 비마르코프 환경으로 정의되며, 여기서 현재의 행동은 단순히 현재 상태뿐만 아니라 과거 정보의 완전한 재구성에 의존합니다. 그러나 기존 평가 벤치마크는 이러한 능력을 정확하게 평가하는 데 자주 실패해 왔습니다. 많은 기존 표준은 모델에게 전체 환경 상태를 노출시켜 기억력의 결함을 숨기거나, 숨겨진 상태의 재구성을 다른 관련 없는 에이전트 기술과 혼동하여 평가 지표의 순수성을 해칩니다. 또한 많은 벤치마크는 에피소드가 끝난 후에만 기억력을 테스트하여, 모델이 활발한 상호작용 중에 직면하는 실시간 추론 요구 사항을 반영하지 못합니다.

이러한 체계적인 격차를 해소하기 위해 연구진은 RNG-Bench(Reconstructive Non-Markov Games)를 소개했습니다. 이는 기초 모델이 과거 관찰을 재구성하고 그에 따라 행동하는 핵심 능력을 분리하여 평가하도록 설계된 전용 벤치마크 스위트입니다. 이 기여는 장기 기억과 비마르코프 의사결정의 교차점에서 멀티모달 에이전트 평가의 공백을 메웁니다. 환경을 엄격하게 통제함으로써 RNG-Bench는 모델이 확장된 기간 동안 정보를 얼마나 잘 유지하고 검색할 수 있는지 정확하게 측정할 수 있게 하며, 복잡한 동적 설정에서 대형 모델의 한계를 이해하는 새로운 렌즈를 제공합니다.

심층 분석

RNG-Bench는 매칭 페어(Match-Pair)와 3D 미로(3D Maze)라는 두 가지 보완적인 게임 작업으로 구성됩니다. 매칭 페어 작업에서 모델은 이전 단계의 특정 위치에 잠시 표시된 카드의 신원을 정확하게 기억해 내야 합니다. 3D 미로 작업에서 에이전트는 첫 번째 시점의 시각적 입력을 통합하여 내부 공간 지도를 구축하고 유지해야 합니다. 이러한 작업은 그리드 크기, 시각적 패턴 복잡성, 관찰 모드라는 세 가지 명확한 난이도 축에 의해 지배됩니다. 이러한 다차원 통제를 통해 어떤 요인이 모델 성능에 가장 큰 영향을 미치는지 체계적으로 조사할 수 있습니다. 스위트는 또한 인스턴스 수준의 분산을 통제하여 평가 결과가 통계적으로 유의미하고 무작위 노이즈에 강건하도록 하는 헤드투헤드 대결 프로토콜을 사용합니다.

이 연구의 핵심 혁신은 '메모리 갭(Memory Gap)' 지표의 도입입니다. 이 지표는 초기 관찰을 잊어서 발생하는 오류와 하위 최적의 의사결정 논리로 인한 오류를 효과적으로 분리합니다. 이러한 실패 모드를 분리함으로써 연구진은 모델 실패의 근본 원인을 더 세분화하여 진단할 수 있습니다. 실험 설정은 모델을 한계까지 밀어붙이며, 가장 어려운 구성은 단일 에피소드 내에서 약 128K 토큰 컨텍스트와 최대 350장의 이미지를 처리해야 합니다. 이 규모는 현재 멀티모달 아키텍처의 상한을 테스트하며, 최첨단 시스템 중에서도 상당한 개선의 여지가 있음을 드러냅니다.

산업 영향

RNG-Bench의 발견은 복잡한 작업에서 대형 모델의 한계에 대한 기존의 가정에 도전합니다. 메모리 갭 분석은 선도적인 MLLM의 오류 주요 원인이 추론이나 계획 논리의 실패가 아니라 초기 관찰을 유지하고 검색하지 못하는 능력에 있음을 보여줍니다. 이 통찰은 개발의 초점을 순수하게 의사결정 알고리즘을 강화하는 것에서 장기 기억 메커니즘과 공간 추론 능력을 개선하는 것으로 전환시킵니다. 산업界에게 이는 로봇 공학, 자율 주행, 대화형 가상 비서와 같은 애플리케이션에 필수적인 요구 사항인 시간이 지남에 따라 컨텍스트를 유지하는 능력이 견고한 멀티모달 에이전트 배포의 병목 현상임을 의미합니다.

연구는 또한 개선의 실용적인 경로를 보여줍니다. 최적의 정책 궤적과 필터링된 모델 데모에서 Qwen3.5-9B 모델을 파인튜닝함으로써 연구진은 모델의 일반적인 멀티모달 능력을 저하시키지 않고 RNG-Bench에서 상당한 성능 향상을 달성했습니다. 이는 메모리 집약적 작업에 대한 표적 훈련이 다른 영역에서 파괴적 망각이나 성능 저하를 초래하지 않고 특정 역량을 향상시킬 수 있음을 시사합니다. 이 발견은 기존 모델을 더 요구가 많고 긴 시간 범위의 작업에 맞게 업그레이드하려는 오픈 소스 커뮤니티와 산업 개발자에게 실행 가능한 전략을 제공합니다.

전망

RNG-Bench의 도입은 멀티모달 에이전트의 장기 기억을 평가하고 향상시키기 위한 엄격한 프레임워크를 제공합니다. 복잡하고 실제 세계 환경에서 작동할 수 있는 지능형 시스템에 대한 요구가 증가함에 따라 비마르코프 과제를 처리하는 능력은 주요 차별화 요소가 될 것입니다. 벤치마크의 디자인은 커뮤니티가 이차적인 문제로 취급하지 않고 기억 유지 및 검색의 특정 메커니즘에 집중하도록 장려합니다. 향후 연구는 이 연구에서 식별된 메모리 갭을 명시적으로 해결하는 새로운 아키텍처와 훈련 방법을 탐색하며 이러한 발견을 바탕으로 구축될 가능성이 높습니다.

또한 Qwen3.5-9B의 파인튜닝 성공은 기존 기초 모델이 비교적 사소한 개입으로 이러한 엄격한 기준에 적응할 수 있음을 나타냅니다. 이는 전문화된 에이전트를 개발하려는 소규모 연구 팀과 기업의 진입 장벽을 낮춥니다. RNG-Bench가 인기를 얻으면서 메모리 증강 아키텍처와 공간 추론 모듈에서 혁신의 물결을 주도할 것으로 예상됩니다. 궁극적인 목표는 과거가 즉시 보이지 않는 환경에서 신뢰할 수 있게 탐색하고 작동할 수 있는 멀티모달 에이전트를 생성하여 생산 환경에서 더 자율적이고 능력 있는 AI 시스템의 길을 여는 것입니다.

Sources