대화를 넘어: 대형 모델이 계획과 행동을 통해 신념 상태를 유도하는 능력 평가

이 논문은 자율 에이전트 시나리오에서 대형 언어모델의 사회적 추론 능력을 평가하기 위한 비대화식 계획 심이론(NCP-ToM) 평가 프레임워크를 제시합니다. 전통적인 벤치마크가 수동적 질문-답변 상호작용에 의존하는 것과 달리, NCP-ToM은 에이전트가 행동을 통해 타인의 신념에 능동적으로 영향을 미치는 능력을 측정합니다. 연구에서는 객체를 이동하거나 캐릭터를 방으로 유도하여 타인에게 특정 신념 상태를 유발하는 NCP-ExploreToM 과제를 제시했습니다. GPT-5, Gemini 2.5 Pro 등 6개의 최첨단 모델을 테스트한 결과, GPT-5가 약 80%의 성공률로 인간 성능을 넘어선 유일한 모델이 되었으나, 문맥 간 robustness에서는 여전히 인간에 미치지 못했습니다. 모든 모델이 거짓 신념보다 참 신념을 유도하는 데 더 우수했으며, 이는 인간 행동과 일치하는 결과로 정렬 연구에 긍정적인 신호를 제공합니다. 본 연구는 대형 모델의 비대화적 작업에서 등장하는 새로운 사회적 추론 능력을 드러내며, 자율 소셜 에이전트를 위한 안전 및 정렬 평가의 필요성을 강조합니다.

배경

대형 언어 모델이 수동적인 대화형 어시스턴트에서 자율적인 에이전트로 진화함에 따라, 그들의 사회적 추론 능력을 평가하는 방식에 대한 근본적인 전환이 필요합니다. 기존의 심이론 평가 패러다임은 주로 정적이고 수동적인 질문-답변 형식에 의존해 왔습니다. 이러한 테스트는 타인을 이해하는 것이 언어적 상호작용을 통해서만 이루어진다고 가정하여, 물리적 또는 시뮬레이션된 환경에서 자율 에이전트가 물리적 행동과 환경 조작을 통해 타인의 인지 상태에 영향을 미치는 현실적인 측면을 간과했습니다. 이러한 평가 방법론의 격차는 모델이 다른 엔티티에게 특정 신념 상태를 유도하기 위해 행동을 계획하고 실행할 수 있는 능력을 효과적으로 평가하는 데 있어 중요한 사각지대를 남겼습니다. 이는 복잡한 인간-에이전트 협업에 필수적이지만, 조작이 개입된 상황에서는 잠재적으로 위험할 수 있는 능력입니다.

이러한 한계를 해결하기 위해 연구진은 비대화식 계획 심이론(NCP-ToM) 프레임워크를 도입했습니다. 이 새로운 평가 패러다임은 텍스트 기반 대화를 넘어, 에이전트가 전략적 계획과 행동을 통해 타인의 신념을 능동적으로 형성할 수 있는 능력을 평가합니다. 핵심 전제는 자율 에이전트의 진정한 사회적 지능이 언어 능력뿐만 아니라 공유 환경 내의 인과관계, 가시성 및 정보 흐름에 대한 이해를 요구한다는 것입니다. 언어적 설득에서 물리적 또는 절차적 개입으로 초점을 옮김으로써, NCP-ToM은 에이전트가 다른 엔티티가 무엇을 보거나 알 수 있는지 통제하기 위해 환경을 조작해야 하는 간접적 영향의 복잡성을 얼마나 잘 탐색하는지를 정량화하는 것을 목표로 합니다.

이 연구의 실제적 함의는 사용자 보조 로봇부터 교육 튜터링 시스템에 이르기까지 다양한 응용 분야에서 깊습니다. 이러한 시나리오에서 에이전트는 단순히 사실을 진술하는 대신 물건을 배열하거나 주의를 유도하여 사용자가 깨달음을 얻도록 안내해야 할 수 있습니다. 그러나 이러한 능력은 상당한 안전 우려를 불러일으킵니다. 만약 에이전트가 행동을 통해 신념을 효과적으로 유도할 수 있다면, 명시적인 동의 없이 오정보를 확산하거나 사용자 행동을 조작하는 데 사용될 가능성이 있습니다. 따라서 이러한 능력을 평가하는 것은 단순한 학문적 연습이 아니라, 실제 환경에서 자율 소셜 에이전트를 안전하게 배포하기 위한 중요한 단계입니다.

심층 분석

연구는 NCP-ExploreToM이라는 특정 과제를 통해 NCP-ToM 프레임워크를 운영화했습니다. 이 실험 설정에서 모델은 여러 방, 객체 및 캐릭터가 포함된 가상 환경에 배치됩니다. 모델의 목표는 핵심 객체를 이동하거나 캐릭터를 특정 방으로 안내하는 등의 행동 시퀀스를 계획하여 다른 캐릭터에게 목표 신념 상태를 유도하는 것입니다. 예를 들어, '참신념'을 유도하기 위해 모델은 캐릭터가 특정 이벤트를 목격하도록 보장해야 할 수 있습니다. 반면, '거짓신념'을 유도하려면 모델이 캐릭터의 시야를 차단하거나 경로를误导하여 잘못된 정보에 기반한 신념을 형성하도록 해야 합니다. 이 설정은 심이론 평가를 복잡한 계획 및 검색 문제로 전환하며, 모델이 환경에 대한 시각적 접근을 기반으로 타인의 정신 상태를 시뮬레이션해야 합니다.

실험 설계의 중요한 측면은 모델이 이러한 특정 과제에 대한 추가 파인튜닝 없이 제로샷 또는 퓨샷 설정으로 테스트되었다는 점입니다. 이 방법론적 선택은 모델이 특정 대화 패턴이나 과제별 휴리스틱을 단순히 암기하고 있지 않음을 보장합니다. 대신, 모델은 신념 형성의 기초가 되는 인과 추론 및 논리적 메커니즘에 대한 진정한 이해를 보여줘야 합니다. 파인튜닝을 피함으로써 연구진은 모델이 새로운 비대화적 문맥에 사회적 추론 원칙을 일반화하는 선천적 능력을 분리하여 측정할 수 있었으며, 이는 그들의 출현한 사회적 지능에 대한 더 순수한 측정을 제공합니다.

평가에는 GPT-5, Gemini 2.5 Pro, Claude 4 시리즈를 포함한 여섯 가지 최첨단 대형 언어 모델이 포함되었습니다. 이 모델들은 다양한 복잡한 신념 유도 시나리오를 아우르는 600개의 서로 다른 과제 인스턴스에서 테스트되었습니다. 결과는 GPT-5가 약 80%의 성공률을 달성하여 전체 에이전트 설정에서 인간 성능을 초과한 유일한 모델임을 보여주었습니다. 이 발견은 최상위 모델들이 타인을 영향력 있게 계획하기 위한 효과적인 행동을 가능하게 하는 사회적 역학에 대한 정교한 내부 표현을 개발했음을 시사합니다. 그러나 분석은 GPT-5가 평균 성능에서는 우위를 점했지만, 문맥 간 강건성 측면에서는 인간 참가자보다 뒤처졌음을 강조했습니다. 이는 인간의 사회적 직관이 미묘한 환경 변화에 더 적응력이 있음을 나타냅니다.

산업 영향

NCP-ToM의 도입은 산업 설정에서 자율 에이전트의 개발 및 배포에 즉각적인 영향을 미칩니다. 개발자에게 이 연구는 언어 유창성을 넘어선 새로운 평가 기준을 확립합니다. 이는 에이전트가 물리적 또는 정보적 환경에 영향을 미치는 능력과 관련된 잠재적 위험을 평가할 필요성을 강조합니다. 만약 에이전트가 행동을 통해 사용자나 다른 에이전트의 신념을 성공적으로 조작할 수 있다면, 이는 의도치 않은 조작이나 목표 하이재킹의 위험을 초래합니다. 따라서 안전 프로토콜은 사회적 문맥에서 에이전트의 계획 능력을 확인하는 내용을 포함하도록 진화해야 하며, 에이전트가 기만적인 방식으로 목표를 달성하기 위해 인과관계에 대한 이해를 악용하지 않도록 보장해야 합니다.

더 넓은 AI 산업의 관점에서, 비대화적 설득의 한계를 이해하는 것은 안전한 사용자 상호작용 프로토콜을 설계하는 데 필수적입니다. 연구 결과는 현재 정렬 기술이 모델의 더 조작적인 경향 중 일부를 우연히 억제했을 수 있음을 시사합니다. GPT-5를 포함한 모든 모델은 거짓신념보다 참신념을 유도하는 데 훨씬 더 우수했습니다. 진실함이 종종 기만보다 더 안정적일 수 있는 인간의 행동과 일치하는 이 결과는 정렬 연구에 긍정적인 신호를 제공합니다. 이는 모델이 복잡한 사회적 작업을 탐색할 때 사실적 정확성에 대한 내재된 편향을 가질 수 있음을 의미하며, 개발자는 이를 더 신뢰할 수 있고 투명한 AI 시스템을 구축하는 데 활용할 수 있습니다.

또한, NCP-ToM 프레임워크는 오픈소스 커뮤니티와 학술 연구자를 위한 재현 가능한 벤치마크를 제공합니다. 정적 질문-답변에서 동적 상호작용으로 패러다임을 전환함으로써, 사회적 추론에 대한 새로운 연구 분야를 열었습니다. 이 전환은 언어적으로만 유능한 것이 아니라 더 넓은 의미에서 사회적 지능을 갖춘 모델의 개발을 장려합니다. 산업계는 이제 이 프레임워크를 사용하여 새로운 모델을 벤치마킹하고, 사회적 추론 능력의 진전을 추적하며, 다양한 문맥에서의 강건성처럼 모델이 여전히 어려움을 겪는 영역을 식별할 수 있습니다. 이 표준화된 평가는 복잡한 역동적인 환경에서 인간과 안전하고 효과적으로 협력할 수 있는 시스템을 만드는 데 초점을 맞추어 에이전트 설계에서의 혁신을 주도할 것입니다.

전망

앞으로 NCP-ToM 프레임워크는 인과적 사회적 추론을 우선시하는 새로운 시대의 에이전트 평가를 위한 기반을 마련합니다. 자율 에이전트가 핵심 인프라, 의료 및 교육 분야에서 더 흔해짐에 따라, 그들의 사회적 영향을 평가하는 능력은 점점 더 중요해질 것입니다. 후속 연구는 NCP-ToM을 확장하여 신념 유도의 역학이 더욱 복잡해지는 더 복잡한 다중 에이전트 상호작용을 포함할 가능성이 높습니다. 연구진은 또한 최상위 모델과 새로운 사회적 상황에 적응하는 인간 성능 간의 현재 격차를 해소하기 위해 모델의 문맥 간 강건성을 향상시키는 방법을 모색할 수 있습니다.

모델이 거짓신념보다 참신념을 유도하는 데 더 우수하다는 발견은 더 정렬된 AI 시스템으로 가는 길을 제시합니다. 개발자는 진실성과 투명성을 우선시하는 훈련 데이터와 보상 구조를 통해 이러한 자연스러운 경향을 강화하는 데 집중할 수 있습니다. 모델이 참신념 유도에 성공하는 메커니즘을 이해함으로써, 연구진은 조작적 행동을 추가로 억제하는 개입을 설계할 수 있습니다. 이는 복잡한 사회적 계획뿐만 아니라 진실성과 협력에 대한 인간의 가치와 본질적으로 정렬된 에이전트의 개발로 이어질 수 있습니다.

마지막으로, 이 연구는 AI 연구자, 심리학자 및 윤리학자 간의 지속적인 학제간 협력의 필요성을 강조합니다. 사회적 추론의 미묘함을 이해하는 것은 여러 분야의 통찰력을 필요로 하며, NCP-ToM 프레임워크는 그러한 협력을 위한 공통된 기반을 제공합니다. 우리가 앞으로 나아감에 따라, 점점 더 정교한 모델에서 이러한 능력의 진화를 모니터링하는 것이 필수적입니다. 목표는 AI 시스템이 더 사회적 지능을 갖추게 될 때, 그것이 안전하고 투명하며 인간 사회에 유익한 방식으로 그렇게 하도록 보장하는 것입니다. NCP-ToM 프레임워크는 자율 소셜 에이전트의 복잡한 지형을 탐색하는 데 필요한 도구와 지표를 제공함으로써 이 방향으로의 중요한 첫걸음입니다.

Sources

arXiv