Opus 4.7やGPT 5.5に匹敵!? Cursorが新モデル「Composer 2.5」公開、長時間タスクと指示追従が大幅改善

Cursor、独自モデル「Composer 2.5」公開。長時間タスクと指示追従が大幅改善

　Cursorの独自モデル、また一段ギアを上げてきた。

　Cursorは、AIコーディングエディタのCursorが自社製エージェントモデル「Composer 2.5」を公開しました。前バージョンComposer 2と比べて長時間タスクの粘り強さ、複雑な指示への追従性、共同作業のしやすさが大幅に改善したとのことです。

　ベースになっているのは、前バージョンと同じMoonshot AIのオープンソースチェックポイント「Kimi K2.5」系。そこにCursorが独自の追加学習と強化学習を重ねた構成になります。学習面では、より難しいRL（強化学習）環境の投入、長いロールアウトの中で問題地点に直接テキストでフィードバックを与える「targeted RL with textual feedback」、そしてComposer 2と比べて25倍に増やした合成タスクなどを採り入れたと説明しています。

　targeted RL with textual feedbackは、AIに長い作業をやらせきった後にまとめて採点するだけではなく、問題が起きたターンの文脈に短いヒントを差し込み、そのヒント入りの出力分布を教師として学習させるやり方です。たとえるなら、新人エンジニアの作業に対して、最後の総評だけでなく、ミスした箇所ごとに赤入れを残すイメージ。失敗の原因がぼやけにくく、学習効率が上がりやすいというわけです。

　なお性能はあくまでベンチマークテストではOpus 4.7やGPT 5.5に並ぶものに。

　料金は2段階です。標準版が入力100万トークンあたり0.50ドル、出力2.50ドル。応答速度を優先したFast版は入力3.00ドル、出力15.00ドルで、Cursor上ではFastがデフォルトになります。効率的と謳っており、コスパも良さげです。さらに公開初週はComposer 2.5の利用枠が2倍になる扱いです。なかなか気合の入った売り出し方ですね。

　Cursorは4月にSpaceXとのモデル学習提携も明らかにしており、今回の発表でもその次世代計画に改めて触れました。xAIのColossusインフラ（Composer 2.5の発表本文では「Colossus 2」と表記）の100万H100相当の計算能力を使い、次世代のより大きなモデルをゼロから学習する方針です。次世代モデルの学習に10倍の総計算量を使う計画だそうです。次に作る大型モデルへ投入する計算リソースの話なので、今回のモデルじゃないのは注意ですね。

　GitHub CopilotやClaude Code、Windsurfといった競合がひしめく中、Cursorが打つ新しい手。ベンチマークスコアよりも、長時間のエージェント作業でどれだけ粘り強く動けるかに注目しましょう。