Claude Sonnet 4.6 發佈——以 Sonnet 價格獲得接近 Opus 的性能

2026 年 2 月 17 日,Anthropic 發佈 Claude Sonnet 4.6。這次更新將原本只有 Opus 級才能達到的性能帶到了 Sonnet 的價格區間。

API 價格與 Sonnet 4.5 持平(輸入 $3/輸出 $15 per 1M tokens),遠低於 Opus 4.6 的 $5/$25。基準測試顯示 Sonnet 4.6 在代碼、推理、多語言任務上與 Opus 4.6 的差距已大幅縮小,是目前性價比最高的 Claude 模型。

Claude Sonnet 4.6が出た——Opusに迫る性能をSonnet価格で使える時代

Claude Sonnet 4.6が出た——Opusに迫る性能をSonnet価格で使える時代

2026年2月17日、AnthropicがClaude Sonnet 4.6をリリースした。Opus 4.6の発表からわずか12日。Sonnetシリーズとしては、2025年9月のSonnet 4.5以來およそ5ヶ月ぶりのアップデートになる。

注目すべきは、これまでOpusクラスでしか出せなかった性能が、Sonnetの価格帯で手に入るようになった點だ。APIの料金はSonnet 4.5と変わらず、入力$3/出力$15 per 1Mトークン。Opus 4.6の入力$5/出力$25と比べると、大幅に安い。

數字を並べると、Sonnet 4.6がどれだけOpus 4.6に肉薄しているかがわかる。

SWE-bench Verifiedではわずか1.2ポイント差。OSWorld-Verifiedに至ってはOpus 4.6との差が0.2%しかない。オフィス業務を模したGDPval-AAでは、Sonnet 4.6のほうがOpus 4.6を上回っている。

ARC-AGI-2のスコアが13.6%から58.3%に跳ね上がったのも目を引く。1世代で4.3倍という伸び幅は、このベンチマーク史上最大だという。

Claude Codeでの初期テストでは、Sonnet 4.5よりSonnet 4.6を好んだユーザーが約70%。さらに、2025年11月リリースのOpus 4.5と比較しても59%がSonnet 4.6を選んだ。Sonnetモデルが旧世代のOpusに対してユーザー支持で上回ったのは、これが初めてだ。

具體的に何が改善されたかというと、コードを変更する前に既存の文脈をしっかり読み取るようになった點、共通ロジックをコピペせず集約する傾向が強まった點が挙げられている。長いセッションで使い続けたときのフラストレーションが減ったという声もある。過剰設計の傾向が薄まり、指示への追従精度が上がり、成功したと嘘をつくケースや幻覚の頻度が下がった。

Terminal-Bench 2.0では59.1%を記録し、GPT-5.2の46.7%を大きく突き放している。

Adaptive Thinking——考える深さを動的に変える

Sonnet 4.6から、従來のextended thinkingに代わるAdaptive Thinkingが導入された。

これまではextended thinkingをオン/オフで切り替えていたが、Adaptive Thinkingではモデルがタスクの難易度に応じて思考の深さを自動で調整する。簡単な質問にはすぐ答え、複雑な推論が必要な問題には深く考える。レイテンシとコストのバランスを自動で取ってくれる仕組みだ。

APIで使う場合は thinking: {type: "adaptive"} を指定する。effortパラメータで思考の深さを制御でき、3段階ある。

max : 常にextended thinkingを使い、深さに制約を設けない

high : デフォルト設定。常に考え、深い推論を行う

medium : 適度に考える。簡単な問い合わせでは思考をスキップすることもある

Anthropicは、Sonnet 4.6ではmediumを推奨している。速度とコストと性能のバランスが最も取れるためだ。

なお、従來の thinking: {type: "enabled"} と budget_tokens は非推奨になった。動作はするが、将來のモデルで削除される予定だ。

コンテキストウィンドウが100万トークンに

Sonnet 4.6では、コンテキストウィンドウが100万トークンに拡大した。ベータ版ではあるが、コードベース全體、長大な契約書、數十本の論文をまとめて1つのリクエストに詰め込める。

これと合わせて、Context Compactionという機能もベータ導入されている。會話がコンテキストの上限に近づくと、古い部分を自動で要約して圧縮してくれる。長時間のエージェントワークフローで特に効きそうだ。

OSWorld-Verifiedのスコア推移を見ると、コンピューター操作能力の進化がよくわかる。

Sonnet 3.5(2024年10月): 14.9%

Sonnet 3.5 v2 : 28.0%

16ヶ月で14.9%から72.5%。GPT-5.2の38.2%と比べるとほぼ倍のスコアだ。仮想のマウスとキーボードを操作し、複雑なスプレッドシートの操作やマルチステップのWebフォーム入力が人間並みにこなせるレベルに達しているという。保険業界のベンチマークでは94%を叩き出したという報告もある。

コンピューター操作では、悪意ある第三者がWebサイトに隠した指示を読み込ませるプロンプトインジェクションのリスクがある。AnthropicはSonnet 4.6のプロンプトインジェクション耐性がSonnet 4.5から大幅に改善し、Opus 4.6と同程度の水準に達したとしている。

すべてでSonnetがOpusに追いついたわけではない。

ターミナルを使った高度なコーディングではOpus 4.6が65.4%に対しSonnet 4.6は59.1%。エージェント検索のBrowseCompではOpus 84.0%、Sonnet 74.7%。新規問題解決のARC-AGI-2ではOpus 68.8%、Sonnet 58.3%。大學院レベルの推論を問うGPQA DiamondではOpus 91.3%、Sonnet 89.9%。

高度な推論や探索が求められるタスクでは、まだOpusに分がある。ただし差は着実に縮まっている。

claude.aiとClaude CoworkのデフォルトモデルはすでにSonnet 4.6に切り替わっている。Free、Proどちらのプランでも使える。

開発者はClaude APIからモデルID claude-sonnet-4-6-20250217 で呼び出せる。Amazon BedrockとGoogle Cloud Vertex AIでも利用可能だ。Claude Codeでも使える。

Opus 4.6との性能差がごく小さい領域では、コストを5分の1に抑えられるSonnet 4.6のほうが合理的な選択になる。オフィス業務の自動化やコンピューター操作のエージェントであれば、Opusと同等以上の結果が期待できる。

一方で、深い推論や高度な探索が必要なタスクにはOpus 4.6を使い、それ以外はSonnet 4.6に回すという使い分けが現実的だろう。Adaptive Thinkingのeffortパラメータをmediumに設定すれば、コストをさらに抑えられる。

モデルの世代が進むたびにSonnetとOpusの差が縮まっている。次のイテレーションでその差がどうなるか、気になるところだ。

ITパスポート、基本情報技術者、応用情報技術者、情報処理安全確保支援士試験合格

バッジを受け取った著者にはZennから現金やAmazonギフトカードが還元されます。

ITパスポート、基本情報技術者、応用情報技術者、情報処理安全確保支援士試験合格

Adaptive Thinking——考える深さを動的に変える

コンテキストウィンドウが100万トークンに