弊誌はアフィリエイト広告を利用しています。

やっぱり。Claudeの品質低下、正式に認める

 やっぱりおかしかったよね、Claude……。

 Anthropic(アンソロピック)が4月23日付けで、ここしばらく「Claudeがバカになった」と騒がれていた問題について、公式な調査結果を公表しました。

 原因は3つの独立した変更が重なった結果で、すべて4月20日時点のv2.1.116で解決済としています。

 影響範囲はClaude Code、Claude Agent SDK、Claude Cowork。一方、API直叩きには影響がなかったとのこと。それぞれ別の日に別のユーザー層を直撃した結果、外から見ると「広く・一貫しない品質低下」に見えていた、というのが顛末です。

 1つ目は3月4日Claude Codeのデフォルト推論努力(reasoning effort、推論にかける計算量の強さ)を「high」から「medium」に下げた変更です。UIがフリーズして見えるほどの遅延を嫌ってのチューニングだったそうですが、これがSonnet 4.6とOpus 4.6の体感知能を落とした本丸でした。4月7日にロールバックし、現在はOpus 4.7が「xhigh」、その他のモデルが「high」標準になっています。

 2つ目は3月26日、1時間以上アイドルだったセッションの過去思考を1回だけ消す最適化にバグがあり、毎ターン消し続けてしまう状態に。Claudeが「忘れっぽくて同じことを繰り返す」犯人です。4月10日のv2.1.101で修正されました。

 3つ目は4月16日、ツール呼び出しの間に挟むテキストを25語以内、最終回答を原則100語以内に抑えろという冗長性抑制プロンプトを追加したところ、Sonnet 4.6、Opus 4.6、Opus 4.7に影響。追加評価ではOpus 4.6とOpus 4.7のコーディング品質に約3%の低下が確認され、4月20日のv2.1.116で撤回となりました。

 Anthropicはお詫びとして、サブスクライバー全員の使用量上限をリセット。今後はシステムプロンプト変更時に全モデルで評価を回す、監査ツールを入れて段階的にロールアウトする、社内スタッフが公開版Claude Codeをより広く使う、説明責任のための専用アカウントを立てるなどの再発防止策も並べています。

 もっとも、不調報告は3月上旬から調査対象になっており、4月2日にはAMDAIグループのシニアディレクター、Stella Laurenzo氏が大量のセッションログを分析して具体的な性能低下を告発する一幕までありました。なお、修正完了とされる4月20日から公表まで3日間空いたことも、ユーザー目線では引っかかるところです。

 信頼の回復は、原因究明より長くかかるものです。本当にキレが戻ったのかは、しばらく私たち自身の手で確かめていくしかなさそうです。

Anthropic のこれまで

すまほん!!を購読しませんか?

Twitterでも最新更新を配信・通知しています

フォローする 再度表示しない