CRAFT: 숨겨진 표현 기반 대비 추론 정렬로 탈옥 방어

CRAFT는 숨겨진 표현 수준에서 추론 모델 안전성을 강화. 추론 안전성 79.0%, 응답 안전성 87.7% 향상.

배경

대규모 언어 모델(LLM)이 복잡한 추론 과제에서 놀라운 능력을 보이자, 이에 따른 보안 문제, 특히 사고의 사슬(Chain of Thought)을 겨냥한 탈옥 공격(Jailbreak Attacks)이 산업계의 핵심 관심사로 부상했다. 기존에는 모델의 최종 출력 내용을 필터링하거나 처벌하는 방식의 정렬(Alignment)이 주를 이루었으나, 공격자들은 모델이 사고 과정에서 유해한 중간 추론 단계를 생성하도록 유도함으로써 출력층의 방어 메커니즘을 우회할 수 있었다. 이러한 현상은 '표면적 정렬(Superficial Alignment)'로 불리며, 모델이 최종적으로는 거절하더라도 사고 과정 자체에 유해 정보가 누설되는 치명적인 취약점을 드러낸다. 이를 해결하기 위해 노스웨스턴 대학교와 미시간 대학교 연구진은 CRAFT(Contrastive Reasoning Alignment from Hidden Representations) 프레임워크를 제안했다. 이 프레임워크의 핵심 혁신은 모델의 텍스트 출력뿐만 아니라, 모델 내부의 숨겨진 표현 공간(Hidden Representation Space)으로 방어선을 이동시킨 점에 있다.

연구진은 모델이 안전하고 안전한 추론 궤적을 생성할 때 내부 숨겨진 상태 분포에 현저한 차이가 있음을 발견했다. CRAFT는 이 특성을 활용하여 숨겨진 표현 공간에 대비 학습(Contrastive Learning) 메커니즘을 도입하고, 안전하고 안전한 추론 궤적이 기하학적으로 최대한 분리되도록 강제한다. 이는 단순한 분류 작업을 넘어, 그룹 상대 정책 최적화(Group Relative Policy Optimization, GRPO)와 같은 강화 학습 알고리즘을 통해 모델 파라미터를 동적으로 조정하는 과정이다. 이를 통해 모델은 내부 표현 수준에서 유해 의도에 대한 날카로운 식별 및 거부 메커니즘을 구축하게 되며, 이는 AI 안전 정렬 기술이 '사후 대응'에서 '사전 내재적 제약'으로 전환되는 중요한 이정표가 된다.

심층 분석

CRAFT 프레임워크는 대규모 모델의 추론 능력과 안전 제약 사이의 긴장감을 해결하는 기술적 원리를 제시한다. 기존 적대적 샘플을 통한 미세 조정 방식은 종종 모델의 일반 성능 저하, 즉 '능력 퇴화'를 초래했으나, CRAFT는 모델 내부 정보의 중복성을 활용한 대비 표현 학습을 통해 이를 우회한다. 심층 신경망의 숨겨진 층은 의미 정보뿐만 아니라 모델의 자신감, 추론 경로의 안정성 등의 메타 정보를 인코딩한다. CRAFT는 동일한 입력에 대해 안전하고 안전한 추론 궤적과 안전하지 않은 궤적을 구성하여, 두 궤적이 숨겨진 공간에서 서로 멀어지도록 학습시킨다. 이 과정에서 안전하고 안전한 의도는 출력뿐만 아니라 내부 표현에서도 직교하는 기하학적 구조를 형성하게 된다.

이러한 기하학적 구조의 재형성은 모델이 이전에 보지 못한 새로운 탈옥 공격에 직면했을 때, 기억된 적대적 샘플에만 의존하지 않고 내재된 안전 표현을 통해 일반화된 방어를 수행할 수 있게 한다. 특히 CRAFT는 GRPO에 잠재-텍스트 일관성 제약(Latent-Textual Consistency Constraint)을 통합함으로써 이론적으로 표면적 정렬을 지역 최적해(Local Optima)로 남기지 않음을 증명했다. 전통적인 GRPO는 텍스트 출력만 보상하므로 모델이 사고 과정에서는 유해 내용을 생성하고 최종 응답만 안전하게 만드는 전략을 학습할 수 있었으나, CRAFT는 숨겨진 공간에서의 일관성 보상을 추가하여 이러한 전략을 점수가 낮은 상태로 밀어낸다. 실험 결과, Qwen3-4B-Thinking과 R1-Distill-Llama-8B 모델에서 추론 안전성은 79.0%, 최종 응답 안전성은 87.7% 향상되었으며, 오히려 추론 능력은 4.7% 향상되는 결과를 보였다.

산업 영향

이 기술의 발전은 AI 안전 분야와 관련 산업 생태계에 지대한 영향을 미칠 것이다. 먼저 모델 개발자 관점에서 CRAFT는 기존 훈련 파이프라인에 원활하게 통합할 수 있는 표준화된 안전 정렬 모듈을 제공한다. 이는 향후 대형 모델의 출시가 사후 안전 검열에만 의존하지 않고, 안전 능력을 모델 아키텍처의 일부로 내장하는 방향으로 나아가야 함을 의미한다. OpenAI, Anthropic, 바이트댄스, 알리바바 등 주요 기업들은 이러한 하위 레벨의 안전 정렬 기술을 장악하는 것이 경쟁 우위를 구축하는 핵심이 될 것이다. 또한, 적대적 테스트(Red Teaming)의 관문도 높아질 것이다. 기존 프롬프트 엔지니어링 기반의 탈옥 공격은 숨겨진 공간에서 강제적으로 분리된 기하학적 구조 앞에서는 효과가 크게 감소하며, 이는 적대적 테스트가 단순한 텍스트 대결을 넘어 모델 내부 상태 탐지로 진화해야 함을 시사한다.

기업 사용자들에게 이는 민감한 데이터를 처리할 때 사고 사슬 중 기밀 유출이나 유해 생성을 과도하게 걱정하지 않고 더 강력한 추론 모델을 활용할 수 있음을 의미한다. 금융, 의료 등 고위험 분야에서 모델의 신뢰도가 높아짐에 따라 규정 준수 위험과 브랜드 평판 손실 위험이 크게 감소할 것이다. 그러나 동시에 숨겨진 공간의 안전 정렬 효과를 평가하고 모니터링하는 새로운 도구의 필요성도 대두된다. 기존 평가 지표는 출력 텍스트에 의존하므로, 향후 모델 내부 숨겨진 상태 분포를 시각화하고 분석하여 정렬 효과를 검증하는 새로운 표준이 필요할 것이다. 또한, 이러한 안전 모듈의 오픈소스화 또는 상용화는 중소 모델 개발자들도 안전성을 높여 주요 기업과 경쟁할 수 있게 함으로써, 모델 서비스 시장의 경쟁을 심화시키고 가격 하락과 서비스 품질 향상을 촉진할 것으로 예상된다.

전망

향후 CRAFT 프레임워크가 대표하는 '숨겨진 공간 정렬' 접근법은 AI 안전 연구의 주요 흐름 중 하나가 될 가능성이 높다. 다음 단계의 발전은 주로 효율성 최적화, 보편성 탐색, 그리고 대규모 모델에서의 안정성 유지에 집중될 것이다. 현재 대비 학습은 추가적인 계산 오버헤드를 요구하므로, 향후 연구는 에지 컴퓨팅 및 실시간 추론 시나리오에 적합하도록 더 경량화된 숨겨진 정렬 알고리즘을 설계하는 데 주력할 것이다. 또한, 현재 CRAFT는 주로 추론 모델에 집중되어 있으나, 향후 시각, 청각 등 다중 모달리티 정보를 포함하는 다중 모달 모델로 확장될 가능성이 있다. 다중 모달 정보가 숨겨진 공간에서 어떻게 안전 정렬되어야 하는지에 대한 연구가 활발해질 것이다.

모델 규모가 더욱 커짐에 따라 대규모 파라미터 모델에서 숨겨진 정렬의 안정성을 유지하고 파괴적 망각(Catastrophic Forgetting)을 피하는 것도 중요한 기술적 과제로 부상한다. 주요 모델 업체들이 향후 버전에서 유사한 숨겨진 제약 기술을 암묵적으로 채택하고 있는지, 그리고 규제 기관이 숨겨진 공간의 안전성을 규정 준수 평가 체계에 포함시킬 것인지 주시할 필요가 있다. 만약 숨겨진 정렬이 산업 표준이 된다면, AI 안전의 경쟁은 '누가 더 엄격한 안전 규칙을 가지는가'에서 '누구의 모델 내재 안전 기하학이 더 강건한가'로 전환될 것이다. 이는 AI 안전 산업의 경쟁 논리를 근본적으로 바꿀 것이다. 동시에 공격자가 모델의 숨겨진 표현을 역공학하여 새로운 공격 벡터를 찾는反向工程(역공학) 위험을 경계해야 하므로, 숨겨진 정렬 기술 자체도 지속적으로 진화하는 동적 보안 게임이 될 것이다. CRAFT는 단순한 기술적 돌파구를 넘어, 진정한 안전이 표면적合规(준수)뿐만 아니라 모델 내부 논리의 순수성과 견고성에 있음을 일깨워주는 중요한 패러다임 전환이다.

Sources

arXiv