DelTA: 언어 모델을 위한 판별적 토큰 신용 할당 강화학습 최적화 방법

이 논문은 대규모 언어 모델에서 검증 가능 보상 기반 강화학습(RLVR)에서 응답 수준의 보상을 토큰 수준의 확률 업데이트로 변환하는 내부 메커니즘을 조사합니다. 표준 정책 경사 업데이트 방향은 본질적으로 양측 평균점을 사용하여 토큰 확률을 조정하는 선형 판별기이지만, 이 접근법은 높은 빈도의 포맷 토큰에 의한 간섭에 취약하여 고보상 응답을 구별하는 능력이 약화됩니다. 이를 해결하기 위해 DelTA를 제안합니다. DelTA는 토큰 계수를 추정하여 한 쪽에 특화된 경사 방향은 증폭하고 공유되거나 약한 판별력 방향은 억제합니다. DelTA는 자기규격화된 RLVR 대리 목적 함수의 가중치를 재조정하여 효과적인 평균점을 더 대조적으로 만듭니다. 7개의 수학 벤치마크에서 DelTA는 Qwen3-8B-Base에서 평균 3.26, Qwen3-14B-Base에서 평균 2.62의 차이로最强 동일 규모 기준선을 능가하며, 코드 생성 및 외부 도메인 평가에서도 우수한 일반화 성능을 보여줍니다.

배경

대규모 언어 모델(LLM)의 추론 능력을 향상시키는 핵심 기술로 부상한 검증 가능 보상 기반 강화학습(RLVR)은 수학 문제 해결이나 코드 생성과 같이 정답이 명확하게 검증 가능한 작업에서 모델이 다음 토큰 예측이 아닌 결과 기반 학습을 가능하게 합니다. 그러나 RLVR의 광범위한 채택과 뚜렷한 성능 향상에도 불구하고, 응답 수준의 보상이 구체적으로 어떻게 토큰 수준의 확률 업데이트로 변환되는지에 대한 내부 메커니즘은 여전히 불투명한 상태입니다. 이러한 투명성의 부재는 더 효율적이고 강건한 최적화 전략의 개발을 저해하며, 연구자와 실무자들은 업데이트 과정을 여전히 블랙박스처럼 다루고 있습니다.

표준 정책 경사 업데이트 메커니즘의 핵심 과제는 고보상(양측) 응답과 저보상(음측) 응답의 평균 토큰 기울기를 비교하여 업데이트 방향을 결정한다는 점에 있습니다. 이러한 평균값, 즉 중심점(centroid)은 토큰 확률을 조정하는 선형 판별기를 형성하는 데 사용됩니다. 개념적으로는 단순해 보이지만, 이 접근법은 양측 중심점이 모든 관련 신호를 포착한다고 가정한다는 점에서 한계가 있습니다. 실제로는 중심점이 구분자, 공백, 일반적인 구조적 구절과 같이 정답과 오답 모두에 나타나는 높은 빈도의 포맷 토큰에 의해 크게 영향을 받기 때문입니다.

공유된 높은 빈도 토큰으로부터의 간섭은 기울기 신호를 희석시킵니다. 양측 중심점이 이러한 공통 토큰에 의해 지배될 때, 결과적인 업데이트 방향은 정답으로 이어지는 진정한 판별적 토큰들을 구별하는 데 있어 약점을 드러냅니다. 그 결과, 모델은 성공적인 추론 경로와 결함이 있는 경로를 구분하는 미묘한 논리적 단계를 학습하지 못할 수 있습니다. 이러한 한계는 성공과 실패가 일반적인 포맷 패턴이 아니라 특정하고 희소한 토큰에 의존하는 복잡한 추론 작업에서 특히 두드러집니다.

심층 분석

표준 RLVR의 한계를 해결하기 위해 연구진은 DelTA(Discriminative Token Credit Assignment)를 도입했습니다. 이 방법은 토큰 계수를 명시적으로 추정하여 신용 할당 과정을 정교화하는 것을 목표로 합니다. 기존 방법들이 시퀀스의 모든 토큰을 균일하거나 간단한 가중치로 처리하는 것과 달리, DelTA는 각 토큰이 보상 신호에 기여하는 고유한 반영을 반영하는 동적으로 계수를 추정합니다. 이러한 계수는 한쪽(양측 또는 음측)에 특화된 기울기 방향은 증폭하고, 공유되거나 판별력이 약한 방향은 억제하는 데 사용됩니다. 이 메커니즘은 업데이트 과정이 공통적으로 나타나는 토큰이 아니라, 높거나 낮은 보상을 나타내는 진정한 토큰에 집중하도록 보장합니다.

DelTA의 기술적 구현은 추정된 토큰 계수를 사용하여 자기규격화된 RLVR 대리 목적 함수의 가중치를 재조정하는 과정을 포함합니다. 이를 통해 방법은 효과적으로 측면별 중심점을 재형성하여 더 뚜렷하고 구별되게 만듭니다. 이 가중치 재조정 과정은 모델이 높은 빈도 포맷 토큰이 도입한 노이즈에서 판별적 신호를 분리할 수 있게 합니다. 수학적으로 이는 단순히 보상의 크기뿐만 아니라, 각 토큰이 좋은 응답과 나쁜 응답을 구별하는 데 수행하는 특정 역할을 고려하도록 기울기 업데이트를 조정하는 것과 동일합니다. 그 결과, 모델이 포맷 변이에 강건한 전략을 학습하도록 안내하는 더 정밀한 업데이트 방향이 생성됩니다.

이 접근법의 효과성은 판별적 신호의 희소성을 처리하는 능력에 뿌리를 두고 있습니다. 많은 추론 작업에서 응답의 작은 하위 집합의 토큰만이 그 정확성을 결정하는 데 중요합니다. 표준 RLVR 방법은 수많은 비판별적 토큰에 의해 기울기 신호가 평균화되어 이러한 토큰을 식별하는 데 어려움을 겪습니다. 반면 DelTA는 이러한 핵심 토큰의 신호를 증폭하고 나머지는 억제합니다. 이러한 선택적 증폭은 모델이 가장 중요한 토큰에 확률 질량을 할당하도록 하여 더 정확하고 신뢰할 수 있는 추론을 가능하게 합니다. 계수 추정의 동적 특성은 DelTA가 다양한 유형의 응답에 적응하여 다양한 추론 도메인에서 다용도로 사용될 수 있게 합니다.

산업 영향

DelTA의 함의는 이론적 개선을 넘어 LLM의 배포 및 최적화에 실용적인 이점을 제공합니다. DelTA의 주요 장점 중 하나는 기존 RLVR 프레임워크와의 호환성입니다. 플러그 앤 플레이 방식의 방법으로, 모델 아키텍처나 기본 강화학습 인프라에 대한 상당한 수정 없이 현재 훈련 파이프라인에 통합될 수 있습니다. 이러한 통합의 용이성은 학술 연구자와 산업 실무자 모두의 채택 장벽을 낮추어 최소한의 엔지니어링 오버헤드로 향상된 추론 능력을 활용할 수 있게 합니다.

산업계 이해관계자에게 있어 추론 성능을 향상시키면서 훈련 효율성을 유지하거나 개선하는 능력은 중요한 가치 제안입니다. DelTA는 계산 자원을 더 효과적으로 사용하는 것으로 입증되었으며, 동일한 수의 훈련 단계 내에서 더 높은 성능 수준에 도달할 수 있게 합니다. 이러한 효율성은 대규모 추론 모델을 프로덕션 환경에 배포하려는 조직에게 훈련 및 파인튜닝 비용을 절감하는 것을 의미합니다. 또한, 학습된 전략의 향상된 강건성은 포맷 패턴에 대한 과적합으로 인한 모델 성능 저하 위험을 줄여 실제 애플리케이션에서 더 신뢰할 수 있는 성능을 보장합니다.

이 방법은 토큰 수준 신용 할당에 대한 연구의 새로운 길을 열었습니다. 공유 토큰과 판별적 토큰을 구별하는 중요성을 입증함으로써 DelTA는 RLVR 과정을 분석하고 최적화하기 위한 새로운 이론적 렌즈를 제공합니다. 이 통찰력은 서로 다른 데이터 유형 간 신용 할당이 추가적인 복잡성을 제시하는 멀티모달 추론과 같은 영역에서의 추가 개발을 영감 줄 수 있습니다. 수학 및 코드 생성 작업에서 DelTA의 성공은 정밀한 추론과 논리적 일관성이 가장 중요한 과학적 발견이나 법률 분석과 같은 다른 도메인에도 유사한 원칙이 적용될 수 있음을 시사합니다.

전망

DelTA의 실증적 평가는 엄격한 테스트 시나리오에서 기존 기준선보다 우월함을 입증했습니다. 7개의 수학 벤치마크에서 DelTA는 Qwen3-8B-Base 모델에서 가장 강력한 동일 규모 기준선보다 평균 3.26점, Qwen3-14B-Base 모델에서 평균 2.62점 더 높은 성능을 보였습니다. 이러한 결과는 정밀한 논리적 추론과 단계별 검증이 필요한 도메인인 수학 추론을 향상시키는 방법의 효과를 강조합니다. 이러한 상당한 성능 향상은 DelTA가 표준 RLVR에 내재된 간섭 문제를 성공적으로 해결하여 모델이 더 정확한 추론 전략을 학습할 수 있게 함을 나타냅니다. 수학 작업 외에도 DelTA는 코드 생성 및 도메인 외부 평가에서 강력한 일반화 능력을 보여줍니다. 코드 생성 벤치마크에 대한 테스트는 이 방법이 구문적으로 정확하고 논리적으로 타당한 코드 스니펫을 생성하는 모델의 능력을 향상시킴을 밝혔습니다. 이러한 일반화는 DelTA의 기반 원리가 특정 작업 유형에 국한되지 않고 다양한 추론 과제에 널리 적용될 수 있음을 시사합니다. 서로 다른 도메인 전반에 걸친 일관된 성능 향상은 DelTA 접근법의 다재다능함과 강건성을 강조합니다. 아블레이션 연구는 토큰 계수 추정 메커니즘의 중요성을 추가로 검증했습니다. 이 구성 요소가 제거되었을 때 모델의 성능이 크게 하락했으며, 이는 토큰 계수의 동적 추정이 공유 노이즈를 억제하고 판별적 신호를 강화하는 데 필수적임을 확인했습니다. 이러한 발견은 DelTA의 개선이 우연한 것이 아니라 정교화된 신용 할당 메커니즘의 직접적인 결과라는 결론을 강화합니다. 분야가 계속 진화함에 따라 DelTA는 대규모 언어 모델에서 더 신뢰할 수 있고 효율적인 추론을 향한 중요한 한 걸음으로 자리 잡았으며, RLVR 최적화를 위한 새로운 기준을 설정하고 있습니다.

앞으로 DelTA를 더 넓은 AI 개발 파이프라인에 통합하는 것은 더 지능적이고 신뢰할 수 있는 AI 시스템의 생성을 가속화할 수 있습니다. 모델이 보상으로부터 학습하는 방식에 대한 더 명확한 이해를 제공함으로써 DelTA는 개발자가 더 많은 능력을 갖춘 시스템뿐만 아니라 더 해석 가능한 시스템을 구축할 수 있도록 힘을 실어줍니다. 토큰 수준 학습의 미묘함을 처리하는 DelTA의 성공은 향후 연구가 이러한 원칙을 훨씬 더 복잡한 추론 작업과 멀티모달 설정으로 확장하는 데 집중할 것임을 시사합니다. AI 시스템이 중요한 의사 결정 과정에 점점 더 통합됨에 따라 그 추론이 강건하고 정확함을 보장하는 능력이 가장 중요해질 것이며, DelTA와 같은 방법은 그 목표를 달성하는 데 중요한 역할을 할 것입니다.