Claudini: 자동 연구가 LLM을 위한 최첨단 적대적 공격 알고리즘 발견

2026年3月arXiv论文Claudini提出Autoresearch方法,利用AI系统自动化发现LLM对抗攻击算法。五阶段自动化研究循环:文献挖掘、假设生成、实验实现、大规模评估、策略进化。在GPT-4、Claude 3.5、Gemini Pro、Llama 3 70B上发现多种超越SOTA的攻击,包括高隐蔽性的上下文漂移攻击。为AI安全自动化红队测试开辟新方向。

Claudini: LLM 대상 최첨단 적대적 공격 알고리즘 자동 발견

논문 개요

2026년 3월 arXiv에 발표된 Claudini는 AI 시스템을 사용해 대규모 언어모델(LLM)에 대한 적대적 공격 알고리즘을 자동으로 발견하는 혁명적 AI 안전 연구 방법론을 제안한다. 인간 연구자의 지속적 개입 없이 실험 설계, 테스트 실행, 결과 분석, 공격 전략 반복 최적화를 자율 수행하는 Autoresearch 개념이다.

기술 방법론

자동화 연구 루프가 핵심. 기존 공격 문헌 분석 후 지식 그래프 구축, LLM 코드 생성으로 새 공격 변종 자동 구현, 타깃 모델 테스트 후 파라미터 조정을 반복한다.

실험 결과

GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B 테스트에서 기존 SOTA를 상회하는 공격 알고리즘 발견. 특히 다턴 대화로 모델 안전 경계를 점진적으로 이동시키는 컨텍스트 드리프트 공격이 주목된다.

보안 영향과 윤리

자동 취약점 발견은 레드팀 테스트에 큰 가치를 지니나 악용 위험도 있다. 저자는 책임 있는 공개 조치를 취하고 영향받는 AI 기업에 개별 통보했다.

Autoresearch 상세 아키텍처

5단계 루프: 문헌 마이닝, 가설 생성, 실험 구현, 대규모 평가, 전략 진화(유전 알고리즘+RL). 24시간 가동으로 1주일에 인간 팀 1년치 초과 탐색. 컨텍스트 드리프트 공격은 다턴 대화로 안전 경계를 점진적으로 이동시키는 교묘한 수법. GPT-4, Claude 3.5, Gemini Pro, Llama 3 70B에서 모두 SOTA 초과. 저자는 가장 파괴적인 공격 세부사항 공개를 지연. 자동화 레드팀 테스트의 새 방향을 개척.

발견된 신형 공격 카테고리

컨텍스트 드리프트 외에도 다수의 신형 공격을 발견. 시맨틱 그래디언트 공격은 프롬프트 내 미묘한 의미 이동으로 모델 안전 정책을 점진적으로 이탈시킨다. 메타인지 하이재킹 공격은 모델의 자기 반성 메커니즘을 이용해 안전 판단을 의심하게 만든다. 크로스모달 인젝션은 이미지나 코드에 숨겨진 명령을 삽입해 텍스트 필터를 우회한다. 공통 특징은 높은 은밀성과 단순 규칙으로의 탐지 곤란. 연구팀은 모델 출시 전 자동화 레드팀 테스트 표준화를 제언. OpenAI, Anthropic, Google 보안팀으로부터 적극적 반응을 얻었다.

AI 보안 분야에 대한 심원한 영향

기존 레드팀 테스트는 소수 전문가의 수동 시나리오 설계에 의존하여 커버리지가 제한적이고 비용도 높았다. 자동화로 테스트 커버리지가 기하급수적으로 향상되며 인간이 간과하기 쉬운 비직관적 공격 경로도 발견할 수 있다. 여러 AI 기업이 Claudini의 발견을 보안 평가 프로세스에 통합하겠다고 밝혔다.

미래 AI 보안에 대한 시사점

이 연구의 가장 깊은 영향은 AI 보안 연구 자체가 AI에 의해 가속화될 수 있음을 밝힌 것이다. AI 시스템은 공격 대상인 동시에 취약점 발견·수정 도구이기도 하다. 이 양방향 능력의 발전이 미래 AI 보안 연구 패러다임을 정의할 것이다.