언어 모델의 도구 선택은 내부에서 어떤 성질을 가집니까?

12개 LLM 연구 결과, 도구 선택이 숨겨진 상태 내에서 선형 판독 가능함. 특정 활성화 벡터 추가로 모델의 도구 선택을 직접 변경할 수 있음.

이 발견이 왜 중요한가요?

실행 후에만 오류가 드러나는 블랙박스 한계 해결. 파인튜닝 없이 도구 호출을 정밀하게 제어 가능해 AI 에이전트 신뢰성 및 안전성 향상.

개발자가 다음에 주목해야 할 점은 무엇인가요?

4B 이상 모델 정확도 93~100% 달하며 JSON 인자가 자동으로 맞춰짐. 차세대 에이전트 프레임워크 내 표준 안전 장치 통합 방안이 주목받을 것.

언어 모델에서 도구 호출은 선형적으로 판독 가능하며 조작 가능

도구 호출 에이전트가 잘못된 도구를 선택하면 실행 전까지 오류가 보이지 않습니다. Gemma 3, Qwen 3, Qwen 2.5, Llama 3.1(270M~27B 파라미터) 등 12개의 지시 튜닝 모델의 숨겨 상태(hidden states)를 분석한 결과, 선택된 도구의 정체가 모델 내부에서 선형적으로 판독 가능하며 조작 가능함이 밝혀졌습니다. 도구 이름만 포함된 단일 턴 프롬프트에서 두 도구의 내부 활성화 평균 차이를 유도한 벡터를 더하면, 모델이 선택하는 도구를 77~100% 정확도(4B 이상 모델은 93~100%)로 전환할 수 있습니다. 이어서 자귀수적으로 생성되는 JSON 인자는 새 도구의 스키마와 일치하며, 파인튜닝 없이 도구 호출 행동을 선형적으로 제어할 수 있음을 보여줍니다.

배경

도구 호출을 수행하는 AI 에이전트가 잘못된 도구를 선택할 때 발생하는 오류는 실행 단계가 되어야만 비로소 드러난다. 이는 이메일이 잘못된 수신자에게 발송되거나 중요한 미팅이 누락되는 등 되돌릴 수 없는 결과를 초래할 수 있다. 이러한 오류 감지의 지연은 모델 내부의 의사결정 과정이 불투명하기 때문에, 실행 전에 이러한 실수를 진단하거나 예방하는 것을 어렵게 만들었다. 최근 연구는 언어 모델의 내부 표현을 조사하여 도구 선택이 어떻게 인코딩되는지를 이해함으로써 이러한 불투명성을 해소하고자 한다.

이 연구는 Gemma 3, Qwen 3, Qwen 2.5 및 Llama 3.1 계열의 12개 지시 튜닝 모델을 대상으로 한다. 모델의 규모는 2억 7천만 파라미터에서 270억 파라미터에 이르기까지 다양하여, 모델 크기가 도구의 정체를 선형적으로 판독하고 조종하는 능력에 어떤 영향을 미치는지에 대한 견고한 분석을 가능하게 한다. 이러한 특정 아키텍처를 조사함으로써 연구는 도구의 선택이 모델의 숨겨진 상태(hidden states)에서의 선형 개입을 통해 해석 가능하고 수정 가능한 방식으로 인코딩되어 있는지 여부를 규명하고자 한다.

심층 분석

연구의 핵심 발견은 선택된 도구의 정체가 모델의 숨겨진 상태 내에서 선형적으로 판독 가능하고 조종 가능하다는 것이다. 이는 특정 도구의 신경 표현이 무작위로 흩어져 있는 것이 아니라, 식별하고 조작할 수 있는 방향에 정렬되어 있음을 의미한다. 이를 입증하기 위해 연구진은 도구 이름으로 프롬프트를 입력했을 때 모델의 내부 활성화 내역을 분석했다. 그들은 두 가지 다른 도구 간의 내부 활성화 평균 차이를 계산했다.

이러한 선형 조종 메커니즘의 효과는 놀라울 정도로 높다. 도구 이름만 포함된 단일 턴 프롬프트에서 개입은 모델의 선택을 77%에서 100%의 정확도로 전환했다. 40억 파라미터 이상의 더 큰 모델의 경우 정확도는 93%에서 100%로 상승했다. 이는 더 큰 모델이 도구의 정체를 더 뚜렷하고 견고하게 인코딩하여 선형 제어를 더 잘 받음을 나타낸다. 이러한 높은 정밀도로 선택된 도구를 전환할 수 있다는 것은 도구 간 의사결정 경계가 모델의 표현 공간에서 선형적으로 분리 가능함을 시사한다.

더욱이 이 조종 효과는 도구 선택을 넘어선다. 도구 호출 이후 자귀수적으로 생성되는 JSON 인자는 새로 선택된 도구의 스키마와 일치한다. 이는 선형 개입이 도구 이름만 변경하는 것이 아니라 파라미터의 후속 생성에도 영향을 미쳐 새 도구의 요구사항과 일관성을 유지함을 의미한다. 파인튜닝 없이 도구 호출 행동에 대한 이러한 포괄적인 제어는 오류를 수정하거나 실시간으로 에이전트 행동을 안내하는 강력한 메커니즘을 제공한다.

산업 영향

도구 호출 행동을 선형적으로 판독하고 조종할 수 있는 능력은 AI 에이전트의 신뢰성과 안전성에 중대한 영향을 미친다. 현재 도구 호출 오류의 디버깅은 광범위한 로깅과 사후 분석을 필요로 한다. 선형 조종 가능성 덕분에 개발자는 실시간 모니터링 및 수정 메커니즘을 구현할 수 있다. 에이전트가 최적이지 않거나 잘못된 도구 선택으로 향하고 있는 것이 감지되면, 실행 전에 선형 개입을 통해 이를 리디렉션할 수 있다. 이는 운영 실패의 위험을 줄이고 생산 환경에서 AI 시스템의 신뢰성을 향상시킨다.

이 기술은 AI 에이전트의 효율성을 개선하기 위한 새로운 길을 연다. 모델을 더 적합한 도구로 조종함으로써 에이전트는 작업을 완료하는 데 필요한 잘못된 시도와 반복 횟수를 줄일 수 있다. 이는 API 호출이 비용이 많이 들거나 속도 제한이 있는 시나리오에서 특히 중요하다. 선형 제어 메커니즘은 모델의 재교육이나 파인튜닝이라는 계산 오버헤드 없이 정밀한 조정을 가능하게 하여 에이전트 성능 향상을 위한 확장 가능한 솔루션이 된다.

전망

앞으로 선형적으로 도구 호출 행동을 조종할 수 있는 능력은 견고한 AI 에이전트 개발에서 표준 기능이 될 가능성이 높다. 산업이 더 자율적이고 복잡한 에이전트 워크플로우로 이동함에 따라, 신뢰할 수 있는 오류 수정과 실시간 제어에 대한 필요성은 점점 더 중요해질 것이다. 이 연구에서 입증된 기술은 인간의 개입 없이도 자가 수정하고 변화하는 조건에 적응할 수 있는 에이전트를 구축하기 위한 기반을 제공한다.

향후 연구는 이러한 선형 조종 메커니즘을 추론 단계나 다중 턴 대화 관리와 같은 에이전트 행동의 다른 측면으로 확장하는 것을 탐구할 수 있다. 또한 더 복잡하고 잡음이 많은 환경에서 이 접근법의 한계를 조사하는 것은 그 견고성을 보장하는 데 중요하다. 모델이 크기와 능력에서 계속 성장함에 따라 내부 표현의 선형 구조는 더욱 두드러질 것이며, 제어와 해석 가능성에 대한 새로운 기회를 제공할 것이다.

AI 산업에 대한 함의는 지대하다. 도구 호출 행동에 대한 정밀한 제어를 가능하게 함으로써, 이 연구는 이론적 능력과 실제 신뢰성 사이의 격차를 해소하는 데 도움이 된다. 이는 AI 에이전트가 강력할 뿐만 아니라 예측 가능하고 안전하여, 오류 리스크가 최소화되는 동적 환경에서 운영할 수 있는 미래를 시사한다. 이러한 더 통제 가능하고 해석 가능한 AI 시스템으로의 전환은 자율 에이전트의 주요 산업 전반의 광범위한 채택에 필수적일 것이다.

Sources

arXiv