弊誌はアフィリエイト広告を利用しています。

ミッドレンジなのにハイエンド級。Claude Sonnet 4.6、上位に肉薄するスコアを叩き出す

 Anthropic(アンソロピック)は2月17日(現地時間)、新型AIモデル「Claude Sonnet 4.6」を発表しました。各分野で前世代のSonnet 4.5を上回る、Sonnet史上最高性能のモデルだといいます。

 Claudeには性能の異なる3つのグレードがあります。スマートフォンに例えると、高速・低コストな「Haiku」がエントリーモデル、性能と価格のバランスに優れた「Sonnet」がミッドレンジ、最高性能の「Opus」がフラグシップに相当します。多くのユーザーが日常的に使うのはSonnetで、今回そのSonnetが大幅に強化された形です。

 claude.aiでは、FreeおよびProプランのデフォルトモデルがSonnet 4.6に切り替わりました。研究プレビューとして提供中の有料プラン向け製品「Claude Cowork」でも、デフォルトモデルとして採用されています。

 API料金は100万トークンあたり入力3ドル(約460円)、出力15ドル(約2300円)からで、Sonnet 4.5の価格設定を維持。ただし、プロンプトが20万トークンを超える場合は単価が上がる仕組みとなっており、長文脈を利用する際は留意が必要だそうです。

 性能面では、上位モデルであるOpus 4.6に迫るベンチマーク結果を多数記録しました。ソフトウェア開発能力を測る「SWE-bench Verified」では79.6%(Opus 4.6は80.8%)、AIによるコンピュータ操作能力を測る「OSWorld-Verified」では72.5%(同72.7%)を達成しています。金融分析エージェントを評価する「Finance Agent v1.1」では63.3%を記録し、Anthropicの比較表に掲載された主要モデルの中でトップとなりました。大学院レベルの科学推論を問う「GPQA Diamond」でも89.9%に達するなど、高度な推論能力が伺えます。

 コンピュータ操作能力のスコアも72.5%に到達。約16カ月で5倍近い伸びを見せました。複雑なスプレッドシート操作や、複数ブラウザタブをまたぐ作業において、人間並みの精度を達成しつつあるといいます。

 コードの文脈を読み取ってから修正に着手する点や、共通ロジックを重複させず統合する点が改善されており、ハルシネーション(もっともらしい嘘)や過剰な作り込みも減少したと報告されています。

 コンテキストウィンドウは100万トークンに対応しましたが、現時点での提供はAPI経由のベータ版のみとなります。開発者プラットフォームでは「adaptive thinking」と「extended thinking」の両方に対応し、長い会話の古い文脈を自動要約する「context compaction」もベータ版として利用可能です。

情報元Anthropic
すまほん!!を購読しませんか?

Twitterでも最新更新を配信・通知しています

フォローする 再度表示しない