프록시 충실도: 오픈 대형 모델은 클로즈드 모델을 설명할 수 있는가?

본 논문은 폐쇄형 API 환경에서 기계적 해석 가능성의 한계를 심도 있게 탐구하며, 개방형 대형 모델의 측정 결과가 폐쇄형 모델의 동작을 효과적으로 추론할 수 있는지 평가하는 것을 목적으로 한 "프록시 충실도"라는 핵심 개념을 제안한다. 연구팀은 예측, 귀속, 표현의 세 가지 수준에서 프록시 충실도를 체계적으로 평가했다. Llama, Qwen, GPT, Gemini의 4개 계열에 걸친 11개 모델을 대상으로 광범위한 실험을 수행한 결과, 예측 충실도가 귀속 충실도를 크게 과대평가한다는 사실이 밝혀졌다. 즉, 모델 간 답변의 일관성이 추론 논리의 심각한 불일치를 가리는 경우가 많다. 논문은 "접근 효과성 역전" 현상을 밝혀내는데, 어텐션 패턴과 같은 화이트박스 신호는 안정적이지만 인과 귀속에 대한 예측력이 매우 약하며, 반면 블랙박스 입력 아블레이션 실험이 오히려 인과 귀속을 더 정확하게 포착할 수 있음을 지적한다. 이 발견은 기계적 해석 가능성에 대한 통찰이 폐쇄형 대상에 자동으로 이전될 수 없으며, 예측 수준에서의 일관성만으로는 이러한 이전을 정당화할 수 없음을 보여준다. 이는 오픈소스 커뮤니티가 모델 해석 가능성 도구의 유효성을 평가하는 데 중요한 경고를 제공한다.

배경

기계적 해석 가능성(Mechanistic Interpretability, MI)은 대규모 언어 모델의 내부 작동 원리를 이해하기 위한 핵심 열쇠로 여겨져 왔습니다. 그러나 현재 AI 연구 현장에는 구조적인 장벽이 존재합니다. 산업계에 널리 배포된 대부분의 상용 모델은 폐쇄형 API를 통해만 접근 가능하며, 이러한 인터페이스는 일반적으로 출력 토큰의 로그 확률(logits)만 노출할 뿐, 깊은 기계적 분석에 필수적인 내부 은닉 상태, 활성화 값, 기울기 등의 정보에 대한 직접적인 접근 권한을 차단합니다. 이러한 데이터 접근의 비대칭성은 근본적인 "프록시 문제"를 야기합니다. 연구자들이 폐쇄형 독점 시스템을 이해하기 위해 오픈소스 모델을 프록시로 사용해야 할 때, 오픈 모델에서 수행된 측정이 폐쇄형 대상 모델의 동작에 대해 신뢰할 수 있는 추론을 제공할 수 있는지 불분명해지기 때문입니다.

이 disconnect는 특히 산업계에서 가장 영향력 있는 모델들이 가장 투명하지 않다는 점에서 문제가 됩니다. 기존 해석 가능성 방법론은 주로 화이트박스 접근을 전제로 하며, 연구자들이 어텐션 헤드, 잔여 스트림, 활성화 패턴 등을 직접 검사할 수 있게 해줍니다. 그러나 이로 인해 도출된 많은 결론은 오픈소스 모델의 특정 아키텍처나 학습 데이터의 산물일 수 있으며, 더 복잡하고 상업적 가치가 높은 폐쇄형 모델로 일반화되지 못할 위험이 있습니다. 프록시 관계의 타당성을 평가할 엄격한 프레임워크가 부재한 상태라면, 오픈소스 커뮤니티는 시장에서 지배적인 실제 시스템에 적용했을 때 효과가 없는 해석 가능성 도구와 이론을 구축할 위험에 처하게 됩니다. 따라서 "프록시 충실도"에 대한 지표를 확립하는 것은 단순한 학술적 연습이 아니라, 폐쇄형 API가 지배하는 환경에서 해석 가능성 연구의 관련성과 유효성을 보장하기 위한 필수적인 과제입니다.

이러한 격차를 해소하기 위해 연구팀은 예측, 귀속, 표현이라는 세 가지 서로 다른 추상화 수준에서 프록시 충실도를 평가하기 위한 체계적인 방법론을 개발했습니다. 이러한 계층을 정의함으로써 연구는 오픈 모델과 폐쇄형 모델 간의 정렬이 어디서, 왜 깨지는지를 해부하려는 목표를 가지고 있습니다. 평가 프레임워크는 API 호환성을 갖추도록 설계되어, 내부 모델 상태에 접근할 수 없는 경우에도 적용될 수 있습니다. 이 접근 방식은 오픈 모델을 프록시로 사용하는 능력과 폐쇄형 모델의 실제 동작 간의 직접적인 비교를 가능하게 합니다. 연구는 오픈 모델이 유효한 대리자로 기능할 수 있는 특정 조건을 식별하는 데 중점을 두며, 향후 모델 간 해석 가능성 연구에 대한 기초 벤치마크를 제공합니다. 이를 통해 직관에 의존한 증거를 넘어, 오픈 모델이 폐쇄형 모델을 얼마나 잘 설명할 수 있는지에 대한 정량적measure를 제공하는 것을 목표로 합니다.

심층 분석

이 연구의 실험 설계는 그 범위와 엄격함으로 주목할 만합니다. 연구진은 Llama, Qwen, GPT, Gemini라는 네 가지 주요 계열에 걸쳐 있는 11개의 모델을 포괄하는 광범위한 실험을 수행했습니다. 이러한 다양한 선택은 연구 결과가 단일 아키텍처 패러다임이나 학습 방법론에 국한되지 않도록 보장합니다. 연구진은 2분류 작업에서 표현 수준의 충실도를 위한 스칼라 측정치로 로그 오즈(log-odds)를 활용하는 등 다층적인 평가 전략을 채택했으며, 이는 API 접근과 호환됩니다. 귀속 수준의 분석을 위해 연구진은 입력의 일부를 체계적으로 마스킹하여 출력의 변화를 관찰하는 'leave-one-out(LOO)' 귀속 기술을 구현했습니다. 이를 통해 특정 입력 토큰이 최종 예측에 어떻게 기여하는지에 대한 세밀한 검토가 가능합니다. 서로 다른 모델 아키텍처 전반에 걸쳐 일관된 평가 기준을 유지함으로써, 연구는 구조적 차이의 혼란 효과를 최소화하고 충실도에 영향을 미치는 주요 변수로서 모델의 개방성 여부를 분리해 냅니다.

실험 결과는 예측 충실도와 귀속 충실도 사이의 놀라운 불일치를 드러냅니다. 오픈 모델과 폐쇄형 모델 간의 최종 답변 일치도를 측정하는 예측 충실도는 귀속 충실도를 심각하게 과대평가하는 것으로 나타났습니다. 많은 경우 모델들은 출력이 높은 일관성을 보였으며, 이는 동일한 방식으로 문제를 해결하고 있음을 시사했습니다. 그러나 심층 분석은 이러한 표면적인 일치가 종종 근본적인 추론 논리의 심각한 불일치를 가리고 있음을 보여주었습니다. 두 모델이 완전히 다른 인과 경로를 통해 정답에 도달할 수 있으므로, 오픈 모델의 내부 신호로 훈련된 해석 가능성 도구는 폐쇄형 모델의 실제 의사결정 과정을 설명하는 데 실패할 수 있습니다. 이 발견은 출력의 일관성이 기계적 유사성을 의미한다는 일반적인 가정에 도전하며, 현재 해석 가능성 관행에서 중요한 맹점을 강조합니다.

아마도 가장 중요한 발견은 "접근 효과성 역전" 현상입니다. 어텐션 패턴과 섭동 크기(perturbation magnitudes)와 같은 전통적인 화이트박스 신호는 서로 다른 모델 간에 매우 안정적으로 관찰되었습니다. 그러나 이러한 안정성이 인과 귀속에 대한 예측력으로 이어지지는 않았습니다. 즉, 오픈 모델과 폐쇄형 모델의 어텐션 메커니즘이 비슷해 보일지라도, 입력의 동일한 인과 인자를 가리키지는 않을 수 있습니다. 반면에, 모델을 불투명한 함수로 취급하는 블랙박스 입력 아블레이션 실험은 사용 가능한 화이트박스 신호보다 인과 귀속을 포착하는 데 더 정확했습니다. 이 역전은 대규모 언어 모델의 내부 구조가 서로 다른 학습 체계나 아키텍처 간에 직접 비교할 수 없으며, 오픈-클로즈드 간격을 메우기 위해 복잡한 기계적 분석보다 단순한 블랙박스 방법이 때때로 더 우수한 성능을 발휘할 수 있음을 시사합니다.

산업 영향

이러한 발견은 오픈소스 AI 커뮤니티와 모델 개발 전반에 깊은 영향을 미칩니다. 기계적 해석 가능성 연구자들에게 이 연구는 명확한 경고입니다. 오픈 모델에서 도출된 통찰은 폐쇄형 대상에 자동으로 이전될 수 없습니다. 이는 방법론의 전환을 필요로 하며, 오픈소스 모델이 독점 시스템의 완벽한 대안이라는 가정을 버려야 함을 의미합니다. 연구자들은 이제 폐쇄형 모델에 적용하기 전에 해석 가능성 도구의 프록시 충실도를 명시적으로 테스트하는 더 신중한 접근 방식을 채택해야 합니다. 이는 해석 가능성 통찰의 이전성을 측정하는 새로운 평가 벤치마크 개발로 이어질 수 있으며, 오픈 모델을 위해 설계된 도구가 블랙박스 컨텍스트에서 사용될 때 검증되도록 보장합니다.

산업 실무자들에게 이 결과는 오픈소스 해석 가능성 도구를 의존하여 폐쇄형 상용 모델을 감사하거나 이해하는 것이 심각한 편향과 오류로 이어질 수 있음을 시사합니다. 폐쇄형 모델의 내부 추론이 오픈 프록시의 그것과 크게 다르다면, 프록시의 기계적 구조에 기반한 감사는 폐쇄형 시스템에 존재하는 중요한 취약점이나 편향을 놓칠 수 있습니다. 이는 화이트박스 기계적 분석과 블랙박스 감사 사이의 격차를 효과적으로 메울 수 있는 새로운 평가 기준과 하이브리드 방법의 개발 필요성을 강조합니다. AI 안전성과 컴플라이언스에 투자하는 기업들은 현재 해석 가능성 솔루션이 실제로 사용하는 모델에 충분하지 않을 수 있음을 인식해야 하며, 오픈소스 프록시에 의존하지 않는 맞춤형 감사 프레임워크에 상당한 투자를 요구할 수 있습니다.

또한, 이 연구는 화이트박스 접근 없이도 효과적으로 작동할 수 있는 더 강력한 귀속 방법의 개발 중요성을 강조합니다. 전통적인 화이트박스 신호가 폐쇄형 모델에서 인과 귀속을 예측하는 데 실패했다는 점은 입력-출력 동작만으로 내부 논리를 추론할 수 있는 대체 기술에 대한 필요성을 나타냅니다. 이는 인과 추론, 반사실 분석, 블랙박스 최적화 등의 영역에서 혁신을 촉발하여 복잡한 AI 시스템을 이해하기 위한 새로운 도구를 제공할 수 있습니다. 현재 접근 방식의 한계를 강조함으로써, 이 연구는 커뮤니티가 API 기반 접근의 현실을 고려한 더 미묘하고 현실적인 해석 가능성 모델을 탐색하도록 장려합니다.

전망

"프록시 충실도" 프레임워크의 도입은 기계적 해석 가능성의 엄격한 평가에서 중요한 진전을 의미합니다. 오픈 모델을 폐쇄형 시스템의 프록시로 사용하는 타당성을 평가하는 구조화된 방법을 제공함으로써, 이 연구는 향후 연구에 귀중한 자원을 제공합니다. 코드와 결과의 오픈소싱은 이러한 진전을 더욱 촉진하며, 다른 연구자들이 이러한 발견을 바탕으로 더 효과적인 해석 가능성 도구를 개발할 수 있게 합니다. AI 산업이 점점 더 복잡하고 폐쇄된 모델을 계속 의존함에 따라, 그 내부 workings를 정확하게 이해하는 능력은 지속적인 중요한 과제로 남을 것입니다. 이 연구는 이러한 과제에 대응하기 위한 중요한 기준선을 제공하며, 신중함과 방법론적 엄격성의 필요성을 강조합니다.

앞으로 기계적 해석 가능성 분야는 주로 폐쇄된 AI 생태계의 현실에 적응해야 합니다. 이는 블랙박스 및 하이브리드 방법에 대한 강조 증가와 현재 해석 가능성 기법의 기초가 되는 가정에 대한 더 비판적인 검토를 포함할 것입니다. "접근 효과성 역전"의 발견은 특정 컨텍스트에서 단순성이 복잡성보다 때때로 우수할 수 있음을 시사하며, 정교한 기계적 분석에 부여되는 가치에 대한 재평가를 촉발합니다. 연구자들은 모델 간 동작의 미묘한 차이를 정확하게 포착할 수 있는 새로운 지표와 벤치마크를 개발해야 하며, 해석 가능성 도구가 효과적이고 신뢰할 수 있도록 보장해야 합니다.

궁극적으로 이 연구는 AI 커뮤니티가 모델 투명성에 대한 접근 방식을 재고하도록 촉구하는 행동의 호소입니다. 오픈소스 모델은 연구 및 개발에 여전히 가치 있지만, 산업계를 지배하는 블랙박스 시스템을 이해하기 위한 만병통치약은 아닙니다. 프록시 충실도의 한계를 인정하고 오픈 모델과 폐쇄형 모델 사이의 격차를 메울 새로운 방법을 개발함으로써, 커뮤니티는 더 투명하고 안전하며 신뢰할 수 있는 AI 시스템으로 상당한 진전을 이룰 수 있습니다. 이 연구가 제공하는 통찰력은 현대 AI의 복잡한 지형을 탐색하는 데 필수적이며, 해석 가능성 노력이 과학적으로 타당하고 실용적으로 유용하도록 보장합니다.

Sources