STARE: 놀라움 기반 토큰 레벨 어드밴티지 재가중을 통한 정책 엔트로피 안정화

검증 가능한 보상을 사용하는 대규모 언어 모델의 강화학습(GRPO 등) 훈련에서 광범위하게 관찰되는 정책 엔트로피 붕괴 문제に対処하기 위해, 본 논문은 STARE라는 새로운 안정화 방법을 제안합니다. 1차 그래디언트 분석을 통해 저자들은 토큰 레벨의 신용 할당 불일치를 밝히고, 엔트로피 변화가 궤적 레벨 어드밴티지와 엔트로피 민감도 함수의 곱으로 분해됨을 보이며, 임계점 근처 특성을 가진 어드밴티지-놀라움 사분면 구조를 밝혀냅니다. STARE는 배치 레벨 놀라움 분位数를 활용하여 중요한 토큰 부분 집합을 식별하고 그 효과적 어드밴티지를 선택적으로 재가중하며, 안정적인 엔트로피 관리를 위한 목표 엔트로피 게이트 피드백 메커니즘을 도입합니다. 15억에서 320억 파라미터 모델 및 짧음/긴 사고 사슬 추론 및 다중 턴 도구 사용 작업을 아우르는 실험에서, STARE는 수천 훈련 단계에 걸쳐 안정적인 정책 엔트로피를 유지합니다. AIME24 및 AIME25 벤치마크에서 STARE는 DAPO 등의 베이스라인 대비 평균 정확도를 4-8% 향상시키며, 반성 토큰과 응답 길이가 동시에 증가하여 탐험과 활용의 건강한 균형을 입증하고 강화학습 훈련 잠재력 해방의 새로운 길을 열어줍니다.

배경

대규모 언어 모델(LLM)의 사후 학습(post-training) 단계에서 검증 가능한 보상을 활용하는 강화학습, 특히 그룹 상대 정책 최적화(GRPO)는 복잡한 추론 능력을 향상시키는 주류 패러다임으로 자리 잡았습니다. 그러나 이 분야는 오랫동안 심각한 도전 과제에 직면해 왔는데, 훈련 과정에서 정책 분포가 급격히 붕괴되어 정책 엔트로피가 급감하는 현상인 '정책 엔트로피 붕괴'가 그 예입니다. 이는 모델의 탐색 능력을 제한할 뿐만 아니라 훈련의 불안정성을 초래하거나 최적화 과정이 지역 최적점에 갇히게 만드는 원인이 됩니다. 최근 연구는 GRPO 프레임워크 내에서 토큰 레벨의 엔트로피 역학에 대한 체계적인 1차 그래디언트 분석을 수행하여, 엔트로피 붕괴의 근본 원인이 토큰 레벨의 신용 할당 불일치에 있음을 정확히 규명했습니다.

연구에 따르면, 단일 토큰의 엔트로피 변화는 고립되어 발생하지 않으며, 궤적 레벨의 어드밴티지 함수와 다음 토큰 분포에 특화된 엔트로피 민감도 함수의 곱으로 분해됩니다. 이러한 분해는 시스템이 '어드밴티지-놀라움' 사분면 구조를 가지며 근임계(near-critical) 특성을 보인다는 것을 드러냅니다. 이러한 이론적 통찰을 바탕으로 저자들은 STARE(Surprise-guided Token-level Advantage Reweighting for policy Entropy stability) 방법을 제안했습니다. 이 방법은 세밀한 토큰 레벨의 개입을 통해 정책 엔트로피의 안정성을 유지함으로써, 대규모 언어 모델의 강화학습 훈련에서 오랫동안 성능 병목 현상을 일으켰던 문제를 해결하고자 합니다.

심층 분석

기술적 관점에서 STARE의 설계는 이론적 분석과 엔지니어링 구현을 우아하게 결합합니다. 알고리즘은 먼저 배치 내 샘플의 놀라움(Surprisal) 분위수를 계산하여 엔트로피 변화에 가장 큰 영향을 미치는 중요한 토큰 부분 집합을 동적으로 식별합니다. 이러한 토큰은 일반적으로 의사결정의 핵심 노드에 위치하며, 그 예측 불확실성이 전체 정책 엔트로피에 결정적인 영향을 미칩니다. STARE는 모든 토큰을 균일하게 조정하는 대신, 이러한 중요한 토큰의 유효 어드밴티지를 선택적으로 재가중합니다. 이 재가중 메커니즘은 토큰의 놀라움 수준에 따라 그래디언트 업데이트에서의 기여도를 적응적으로 조정하여, 엔트로피가 너무 빠르게 하락하게 만드는 고신뢰도 토큰의 영향을 억제하고 동시에 저놀라움 토큰에 대한 탐색을 장려합니다.

STARE의 더 혁신적인 측면은 목표 엔트로피 게이트 피드백 메커니즘의 도입입니다. 이 메커니즘은 현재 정책 엔트로피와 미리 설정된 목표 구간의 편차를 지속적으로 모니터링하며, 이에 따라 재가중의 강도를 동적으로 조정합니다. 이러한 폐쇄 루프 제어 전략은 훈련 과정 전반에 걸쳐 정책 엔트로피가 이상적인 범위 내에 제약되도록 보장합니다. 이는 과도한 탐색으로 인한 노이즈 간섭을 피하면서도 조기 수렴으로 인한 다양성 상실을 방지하여 훈련 과정의 정밀한 조절을 실현합니다. 배치 레벨 놀라움 분위수를 활용하여 중요한 토큰 부분 집합을 식별하고 그 유효 어드밴티지를 선택적으로 재가중함으로써, STARE는 목표 엔트로피 게이트 피드백 메커니즘을 통해 엔트로피 조절을 안정화합니다.

산업 영향

실험 평가는 15억에서 320억 파라미터에 이르는 다양한 규모의 언어 모델을 포함하며, 짧은 사고 사슬(Short CoT), 긴 사고 사슬(Long CoT), 다중 턴 도구 사용(Multi-Turn Tool Use)이라는 세 가지 대표적인 추론 작업 계열에 걸쳐 성능을 평가했습니다. 결과에 따르면, STARE는 수천 단계의 강화학습 훈련 단계에 걸쳐 정책 엔트로피를 목표 밴드 내에서 지속적으로 유지할 수 있어 exceptional한 훈련 안정성을 입증했습니다. 주요 추론 벤치마크인 AIME24와 AIME25에서 STARE는 DAPO 및 기타 경쟁력 있는 베이스라인 모델보다 현저히 우수한 성능을 보였으며, 평균 정확도를 4%에서 8%까지 향상시켰습니다. 소거 실험(ablation studies)은 이러한 성능 향상이 단순히 파라미터 수의 증가 때문이 아니라, 탐색과 활용 간의 건강한 균형에서 비롯되었음을 추가로 밝혔습니다.

구체적으로, 훈련이 진행됨에 따라 STARE가 생성하는 반성 토큰(reflective tokens)의 수와 응답 길이가 동시에 증가하는 경향을 보였습니다. 이는 모델이 탐색의 폭을 희생하지 않으면서도 추론의 깊이를 유지했음을 시사합니다. 이러한 동적 균형 메커니즘은 복잡한 추론 작업에서 강화학습의 잠재력을 효과적으로 해금했으며, 최종 모델 성능 향상에 있어 안정적인 엔트로피 조절의 중요한 역할을 증명했습니다. 오픈소스 커뮤니티에게 이 방법론의 공개는 RLHF 기술 스택을 풍부하게 할 뿐만 아니라, 신용 할당을 최적화하는 방법에 대한 새로운 관점을 제공하는 이론적 분석 프레임워크를 제공합니다. 산업적 배포 측면에서 안정적인 정책 엔트로피는 훈련 붕괴 위험을 줄이고 계산 자원 소비를 더 통제 가능하게 만들어, 대규모 추론 모델 배포에 필수적입니다.

전망

산업적 의미와 잠재적 영향의 관점에서 STARE는 대규모 언어 모델의 강화학습 사후 학습을 위한 해석 가능하고 효율적인 솔루션을 제시합니다. STARE가 강조하는 탐색-활용 균형 메커니즘은 개방형 도메인 질문 답변이나 코드 생성과 같이 높은 창의성과 다양성이 요구되는 작업에서 모델 성능을 향상시키는 데 직접적인 지침을 제공합니다. 대규모 모델이 더 복잡한 인지 작업으로 진화함에 따라 정책의 다양성과 안정성을 유지하는 것이 핵심 과제가 될 것입니다. STARE가 제안한 놀라움 기반 재가중 접근법은 미래 강화학습 알고리즘 설계의 중요한 참고 모델이 될 것으로 예상됩니다.

이 방법론은 대규모 모델에서 강화학습의 훈련 잠재력을 해금하는 길을 열었습니다. 정책 엔트로피가 안정적으로 유지되도록 함으로써, STARE는 모델이 조기 수렴의 함정에 빠지지 않고 더 넓은 범위의 추론 경로를 탐색할 수 있게 합니다. 이는 복잡한 환경에서의 견고성과 적응성이 가장 중요한 응용 분야와 특히 관련이 깊습니다. 어드밴티지-놀라움 사분면에서 식별된 근임계 특성은 학습 효율성을 극대화할 때 delicate한 균형점이 존재함을 시사합니다. 향후 연구는 STARE의 프레임워크를 바탕으로 이러한 조절 메커니즘을 더 정교하게 다듬어, 더욱 견고하고 능력 있는 추론 모델을 도출할 수 있을 것입니다. STARE의 탐색과 활용 균형 성공은 강화학습이 대규모 언어 모델에 효과적으로 적용되는 방식에 대한 새로운 기준을 설정하며, AI 훈련 방법론 분야에서 중요한 진전을 의미합니다.

Sources