Claudini:自動研究がLLMの最先端敵対的攻撃アルゴリズムを発見(arXiv論文)

2026年3月のarXiv論文ClaudiniがAutoresearch手法を提案。5段階自動化研究ループ:文献マイニング、仮説生成、実験実装、大規模評価、遺伝的アルゴリズム+RLによる戦略進化。GPT-4、Claude 3.5、Gemini Pro、Llama 3 70Bで既存SOTAを超える攻撃を発見。高い隠蔽性のコンテキストドリフト攻撃を含む。AI安全の自動化レッドチームテストに新方向を切り開く。

Claudini:LLMへの最先端敵対的攻撃アルゴリズムを自動発見

論文概要

2026年3月にarXivで発表されたClaudiniは、AI安全研究の革命的手法を提案した。AIシステムを使って大規模言語モデル(LLM)への敵対的攻撃アルゴリズムを自動的に発見する「Autoresearch」というコンセプトだ。AI研究システムが自律的に実験設計、テスト実行、結果分析、攻撃戦略の反復的最適化を行い、人間の研究者の継続的介入なしにSOTAを超える攻撃を発見した。

技術手法

自動化研究ループが核心。既存の攻撃手法を分析して知識グラフを構築し、LLMのコード生成能力で新たな攻撃変種を自動実装、ターゲットモデルでテスト実行、結果に基づきパラメータ調整を反復する。勾配ベースのトークン置換攻撃の自動最適化、多段階コンテキスト操作戦略の自動組み合わせ、モデル内部表現空間を利用した新型ジェイルブレイク手法を含む。

実験結果

GPT-4、Claude 3.5、Gemini Pro、Llama 3 70Bへのテストで、既存SOTAを複数のベンチマークで上回る攻撃を発見。特にコンテキストドリフト攻撃——多ターン会話でモデルの安全境界を段階的に移動させる新型攻撃が注目される。

セキュリティ影響と倫理

自動脆弱性発見はレッドチームテストに大きな価値を持つ一方、悪意ある行為者に利用されるリスクもある。著者は責任ある開示措置を講じ、最も破壊的な攻撃変種の詳細公開を遅延し、影響を受けるAI企業に個別通知した。

Autoresearch詳細アーキテクチャ

5段階ループ:文献マイニング、仮説生成、実験実装、大規模評価、戦略進化(遺伝的アルゴリズム+RL)。24時間稼働で1週間に人間チーム1年分を超える探索。コンテキストドリフト攻撃は多ターン会話で安全境界を段階的移動させる巧妙な手法で、従来ジェイルブレイクより隠蔽性が高い。GPT-4、Claude 3.5、Gemini Pro、Llama 3 70Bで全てSOTA超え。著者は最も破壊的な攻撃詳細の公開を遅延。自動化レッドチームテストの新方向を開拓。

発見された新型攻撃カテゴリー

コンテキストドリフト以外にも複数の新型攻撃を発見。セマンティック勾配攻撃はプロンプト内の微妙な意味シフトでモデルの安全ポリシーを段階的に逸脱させる。メタ認知ハイジャック攻撃はモデルの自己反省メカニズムを利用して安全判断を疑わせる。クロスモーダル注入は画像やコードに隠し命令を埋め込みテキストフィルターを回避。共通特徴は高い隐蔽性と単純ルールでの検出困難さ。研究チームはモデルリリース前の自動化レッドチームテストの標準化を提言。OpenAI、Anthropic、Googleのセキュリティチームから積極的反応を得ている。

AI安全分野への深遠な影響

従来のレッドチームテストは少数の専門家によるシナリオ設計に依存し、カバー範囲が限定的でコストも高かった。自動化により指数的にテストカバレッジが向上し、人間が見落としがちな非直感的攻撃パスも発見できる。複数のAI企業がClaudiniの知見をセキュリティ評価プロセスに組み込む方針を表明。

将来のAI安全への示唆

この研究の最も深い影響は、AI安全研究自体がAIによって加速可能であることを明らかにしたことだ。AIシステムは攻撃対象であると同時に脆弱性発見・修復ツールでもある。この双方向能力の発展が将来のAI安全研究パラダイムを定義するだろう。