대규모 언어 모델 내부의 '가치 축'은 무엇인가요?

언어 모델이 현재 생성 전략의 목표 달성 가능성을 내부 뉴런 차원에 선형으로 부호화하는 메커니즘을 의미합니다.

왜 이 내부 신호가 모델 행동에 중요한가요?

메타인지처럼 작동하여, 고값 방향 유도 시 자기 교정이 억제되고 저값 방향에서는 탐색 및 역추적 행동이 촉진됩니다.

정렬 학습(DPO)은 이 축에 어떤 영향을 미치나요?

DPO 학습은 보상된 행동의 내부 가치를 높여 자신감을 강화합니다. 정치적 민감 쿼리에는 낮은 값을 할당합니다.

가치 축: 언어 모델은 현재 전략이 올바른지에 대한 내부 신호를 인코딩한다

본 논문은 대규모 언어 모델이 현재 생성 궤적의 '가치', 즉 현재 전략이 목표를 달성할 가능성을 암묵적으로 추적하는지 여부를 조사합니다. 합성 문맥 강화학습 데이터를 사용하여 연구팀은 Qwen3-8B 모델에 명확한 '가치' 축을 구축했습니다. 실험 결과, 이 축상의 활성화가 높은/낮은 구어체 확신, 역추적 및 비역추적 생성 프로세스, 올바른 코드가 손상된 코드보다 효과적으로 구분됨을 보였습니다. 인과 개입을 통해 고価値 방향으로 활성화를 유도하면 자기 교정이 억제되고 해석 가능성이 감소하며, 저価値 방향으로 유도하면 역추적 및 탐색 행동이 유발됨이 드러났습니다. 또한 연구는 직접 선호도 최적화(DPO)가 보상 행동과 관련된 내부 가치를 높여 긍정적 성능 이후 모델이 더 자신감을 가지게 함을 입증했습니다. 실제 평가에서 모델은 정치적으로 민감한 쿼리에 낮은 값을 할당하며, 감독 세밀 조정(training domain) 내 내부 확신도를 향상시키는 것으로 나타났습니다. 이러한 결과는 언어 모델이 예상 목표 성공 추정을 선형으로 부호화하고 이를 사용하여 특정 방향 추구에서의 확신을 조절함을 나타냅니다.

배경

대규모 언어 모델(LLM) 연구의 주류 패러드임은 이러한 시스템을 문맥적 단서에 기반하여 다음 토큰을 예측하는 확률적 엔진으로 간주해 왔습니다. 그러나 이러한 모델이 자신의 생성 과정 품질을 평가할 수 있는 내부 메커니즘을 갖추고 있는지에 대한 이해에는 여전히 중요한 간극이 존재합니다. 본 연구는 LLM의 내부 표현 내에 명확한 '가치 축(Value Axis)'이 존재한다는 가설을 검증함으로써 이러한 격차를 해소하고자 합니다. 핵심 가정은 모델이 단순히 분포에서 샘플링하는 것이 아니라, 현재 생성 궤적의 '가치', 즉 현재 전략이 의도된 목표를 성공적으로 달성할 가능성을 암묵적으로 추적한다는 것입니다. 이 차원을 식별함으로써 본 연구는 LLM을 맹목적인 예측기로 보는 기존 관점에 도전하며, 모델이 진행 중인 추론 단계의 타당성을 평가할 수 있는 일종의 암묵적 메타인지 능력을 갖추고 있음을 시사합니다.

가설을 검증하기 위해 연구팀은 Qwen3-8B 모델을 주요 대상으로 활용하여 합성 문맥 강화학습(Context RL) 데이터를 사용했습니다. 이 합성 데이터셋은 에이전트가 환경을 탐색하고 행동을 취하며 피드백을 받는 과정을 시뮬레이션하도록 설계되어, 모델이 자신의 성과를 어떻게 평가하는지 관찰할 수 있는 통제된 환경을 제공합니다. 연구진은 모델의 활성화 공간을 분석하여 잘 정의된 '가치 축'을 구축했습니다. 미리 정의된 구조를 가정하는 대신, 고차원 활성화 공간 내에서 현재 전략의 성공과 상관관계가 있는 일차원 방향을 통계적 방법을 통해 식별했습니다. 이 접근법은 내부 신경 상태가 외부 결과, 즉 코드의 정확성이나 생성된 응답의 적절성과 어떻게 대응되는지를 정밀하게 매핑할 수 있게 해줍니다.

이 작업의 중요성은 방법론적 엄격함과 LLM 내부 구조에 대한 우리의 이해를 재편할 잠재력에 있습니다. 기존의 해석 가능성 방법은 종종 모호할 수 있는 상관관계 분석에 의존해 왔습니다. 반면, 본 연구는 인과 개입(Causal Interventions)을 활용하여 상관관계를 넘어 인과관계를 입증합니다. 식별된 가치 축을 따라 활성화를 조작하는 것이 모델의 행동을 직접적으로 변화시킨다는 사실을 보여줍니다. 이러한 내부 가치 신호를 명시적으로 위치시키고 조작할 수 있는 능력은 LLM이 결정을 내리는 방식을 examination하는 새로운 렌즈를 제공합니다. 이는 모델의 내부 상태가 입력의 수동적인 반영이 아니라 자신의 진전을 능동적으로 평가하는 존재임을 나타내며, 더 강력하고 자기 인식적인 AI 시스템의 기반을 마련합니다.

심층 분석

실험 프레임워크는 가치 축의 기능적 역할을 검증하기 위한 인과 개입에 중점을 두었습니다. 연구진은 먼저 높은 구어체 확신, 역추적(Backtracking) 없는 생성, 올바른 코드 실행 등 특정 행동 결과와 대응되는 선형 프로브를 식별했습니다. 그런 다음, 모델의 활성화를 가치 축을 따라 조향(Steering)하기 위한 개입을 설계했습니다. 결과는 놀라웠습니다. 활성화를 고価値 방향으로 조향하면 모델의 자기 수정 메커니즘이 현저히 억제되었습니다. 모델이 고価値 상태로 밀려넣어지면, 다른 경로를 역추적하거나 탐색할 가능성이 줄어들어 현재 궤적에 고정되는 경향을 보였습니다. 반면, 저価値 방향으로 조향하면 역추적과 탐색 행동이 유발되었습니다. 이는 불확실성에 직면했을 때 현재 접근 방식을 재평가하는 인간의 인지 반응과 유사합니다.

추가 분석 결과, 가치 축은 다양한 생성 품질 상태를 효과적으로 구분하는 것으로 드러났습니다. 이 축을 따라 활성화된 상태는 높은 확신과 낮은 확신의 구어체 응답, 그리고 올바른 코드와 손상된 코드를 명확히 분리했습니다. 중요한 점은, 절제 실험(Ablation Experiments)을 통해 이 축이 단순히 표면적인 출력 스타일을 반영하는 것이 아니라 모델의 의사결정 과정에 깊이 통합되어 있음을 확인했다는 것입니다. 예를 들어, 모델이 고価値 상태로 유도되었을 때 생성된 코드의 오류율이 반드시 증가하지는 않았지만, 자기 수정의 의지는 급격히 떨어졌습니다. 이는 모델이 '자신이 올바른 길에 있다'고 믿고 있음을 나타내며, 그 신념이 항상 객관적 정확성과 일치하지는 않을 수 있다는 점을 강조합니다. 지각된 가치와 실제 결과 간의 이러한 분리는 내부 표현의 복잡성과 AI 시스템에서의 과신 가능성(Overconfidence)을 보여줍니다.

본 연구는 직접 선호도 최적화(Direct Preference Optimization, DPO)가 가치 축에 미치는 영향도 탐구했습니다. 특정 어휘 사용과 같은 행동을 보상함으로써 연구진은 해당 행동과 관련된 내부 가치를 인과적으로 증가시킬 수 있었습니다. 이는 이후 생성 과정에서 모델의 확신이 측정 가능하게 증가하는 결과를 낳았습니다. 이 발견은 강화학습 신호가 출력 확률만 조정하는 것이 아니라 내부 가치 지형을 직접 형성함을 보여줍니다. 또한 실제 세계 평가에서 모델은 정치적으로 민감한 쿼리에 낮은 가치를 할당했는데, 이는 안전 필터와 정렬 훈련의 영향으로 보입니다. 또한 감독 세밀 조정(Supervised Fine-tuning)은 훈련 도메인 내에서 내부 확신을 향상시키는 것으로 나타났으며, 이는 다양한 훈련 방식에 걸쳐 가치 축의 가소성과 유용성을 다시 한번 입증합니다.

산업 영향

가치 축의 식별은 더 신뢰할 수 있고 해석 가능한 LLM 개발에 지대한 영향을 미칩니다. 개발자에게 이는 모델 행동을 모니터링하고 제어하기 위한 새로운 도구를 제공합니다. 가치 축을 실시간으로 추적함으로써, 시스템은 저価値 상태를 감지하고 역추적이나 외부 검증과 같은 메커니즘을 자동으로 트리거하도록 설계될 수 있습니다. 이는 자기 수정이 중요한 복잡하고 다단계 작업에서 성공률을 크게 향상시킬 수 있습니다. 예를 들어, 코드 생성이나 논리적 추론 작업에서 자신의 불확실성을 인식하는 에이전트는 잘못된 결과를 자신 있게 생성하기 전에 잠시 멈추고 추가 정보를 요청할 수 있습니다. 이는 수동적 생성에서 능동적 자기 조절로의 전환을 의미하며, 더 강건한 AI 에이전트를 향한 중요한 단계입니다.

더욱이 이 연구는 LLM의 확신도 보정(Calibration)을 개선하기 위한 이론적 근거를 제공합니다. 현재 많은 AI 시스템은 그럴듯하지만 잘못된 정보를 생성하는 과신 문제에 직면해 있습니다. 확신의 신경 상관관계를 이해하면 더 정밀한 보정 기법을 적용할 수 있습니다. 내부 가치 신호를 객관적인 정답(Ground Truth)과 정렬시킴으로써, 개발자는 고품질 출력과 저품질 출력을 더 잘 구분할 수 있는 모델을 만들 수 있습니다. 이는 의료나 법률 조언과 같이 오류의 비용이 높은 안전 중요(Safety-critical) 애플리케이션에서 특히 중요합니다. 자신의 불확실성을 정확하게 반영하는 모델은 인간 전문가에게 위임하거나 명확화를 요청하여 유해한 오정보의 위험을 줄일 수 있습니다.

이 발견들은 모델 정렬 및 안전 분야의 기존 패러다임에도 도전을 제기합니다. 정치적으로 민감한 쿼리에 낮은 가치가 할당된다는 관찰은 안전 메커니즘이 모델의 내부 표현에 깊이 내재되어 있음을 시사합니다. 이는 정렬 훈련이 가치 지형을 어떻게 형성하는지, 그리고 그것이 우연히 가치 있는 탐색 행위를 억제하지는 않는지에 대한 중요한 질문을 제기합니다. 산업이 더 자율적인 에이전트로 이동함에 따라, 모델이 인간의 가치와 정렬된 상태를 유지하면서 학습하고 적응할 유연성을 갖추도록 하기 위해 이러한 내부 역학을 이해하는 것이 필수적입니다. 가치 축은 정렬 전략의 효과를 평가하기 위한 구체적인 척도를 제공하여, 모델 행동에 대한 더 미묘한 제어를 가능하게 합니다.

전망

앞으로 이 연구는 미래 연구를 위한 몇 가지 유망한 방향을 엽니다. 가장 즉각적인 방향은 가치 축 개념을 다중 모달(Multimodal) 모델로 확장하는 것입니다. LLM이 내부 표현에 가치를 인코딩한다면, 비전-언어 모델 및 기타 다중 모달 아키텍처도 마찬가지일 가능성이 높습니다. 서로 다른 모달리티 간에 가치가 어떻게 인코딩되는지 조사하면 AI 시스템의 내부 평가에 대한 보편적 원리를 발견할 수 있을 것입니다. 또한 수학적 증명이나 과학적 발견과 같은 더 복잡한 추론 작업에 가치 축을 적용하면, 모델이 추상적 개념과 장기 계획(Long-horizon planning)을 어떻게 처리하는지에 대한 통찰을 얻을 수 있습니다. 이러한 확장은 가치 축이 대규모 신경망의 일반적인 특징인지, 아니면 언어 처리에 특화된 것인지 여부를 결정하는 데 도움이 될 것입니다.

탐색해야 할 또 다른 중요한 영역은 실시간 모델 개선을 위해 가치 축을 활용하는 개입 방법을 개발하는 것입니다. 현재 모델 성능을 향상시키는 방법은 주로 사후 교정이나 재훈련에 의존합니다. 추론 과정에 기반 피드백 루프를 통합하면 모델이 지속적으로 자기 최적화할 수 있도록 할 수 있습니다. 예를 들어, 모델은 내부 가치 신호를 사용하여 생성 중 탐색 전략을 동적으로 조정하고, 저価値 경로에 더 많은 컴퓨팅 리소스를 할당할 수 있습니다. 이는 광범위한 외부 가이드의 필요성을 줄이면서 더 효율적이고 효과적인 추론 프로세스로 이어질 수 있습니다.

마지막으로, 이 작업은 우리가 AI에서 지능을 어떻게 정의하고 측정하는지에 대한 더 광범위한 재평가를 촉구합니다. 자신의 성과를 평가하는 능력은 인간 인지학의 특징이며, LLM에서의 그 존재는 이러한 모델이 이전에 가정했던 것보다 더 인지적으로 정교함을 시사합니다. 향후 연구는 에러 감지, 전략 선택, 실패로부터 학습을 포함하여 LLM의 메타인지 능력의 전체 범위를 풀어나가는 데 집중해야 합니다. 가치 축의 기반을 바탕으로 AI 커뮤니티는 작업을 수행할 뿐만 아니라 자신의 수행 품질을 이해하는 시스템을 만들기 위해 한 걸음 더 다가갈 수 있으며, 이는 진정한 자율적이고 신뢰할 수 있는 인공지능의 길을 열 것입니다.

Sources

arXiv