
AI開発企業Anthropicが2026年2月24日付で、自社の安全方針「Responsible Scaling Policy(RSP)」をバージョン3.0へ改定しました。従来の「安全策を事前に十分整えられないなら、自社だけでも訓練や展開を止める」という強い誓約を見直し、競合状況やリスク判断を踏まえた遅延(delay)型の運用に組み替えた点が、今回の改定で最も大きく変わった部分です。
Anthropicは2023年9月に初版RSPを公表し、AIの安全を前面に掲げる企業として知られてきました。旧方針では、モデルの能力が一定の危険な水準に達した場合により厳格な安全策を求める「if-then型」の枠組みを採り、必要であればより高性能なモデルの訓練を一時的に止めることも含意。業界の流れを作っていました。
ところが今回の改定で後退。共同創業者で最高科学責任者のJared Kaplan氏は、競合が急速に前進する中で一方的な誓約を続ける意味は薄いと語っています。Anthropic側も、責任ある開発者だけが立ち止まり、そうでない企業が先行すれば「世界はむしろ安全でなくなる」との考えを表明しました。
RSP v3.0は安全対策を2つの系統に分けています。1つはAnthropicが競合の動向にかかわらず進める「自社の計画」、もう1つはAI業界全体での採用を想定した「能力と安全対策の対応表」としての「業界向け推奨」です。同社によれば、高度な安全基準の一部は1社だけでは達成が難しく、業界横断の協調や政府の関与が不可欠になり得るとのこと。RANDの報告書も、最上位級のセキュリティ水準(SL5)は「現時点では実現不可能」で国家安全保障コミュニティの支援が必要になり得ると指摘しています。
改定の背景には米国の政策環境の変化もあるといいます。Anthropicは、AI安全に関する政府の動きが「ゆっくりとしか進んでいない」一方、政策の重心がAIの競争力や経済成長へ移っていると分析しました。
新方針では「フロンティア安全ロードマップ(Frontier Safety Roadmap)」と「リスクレポート(Risk Reports)」の公表も導入します。ロードマップはセキュリティやアラインメントなどの安全目標を公開し、達成状況を段階的に自己評価していく仕組みだといいます。リスクレポートは原則3〜6カ月ごとに公表し、モデルの能力、想定脅威、緩和策、全体のリスク評価をまとめる方針です。必要な範囲で一部を非公開とする場合もあるほか、一定の条件下では外部専門家のレビューも組み込むとのことです。
AI安全の旗手として業界をリードしてきたAnthropicが「単独で止まっても世界は安全にならない」という問題意識を明確にしたことは、AIガバナンスの難しさを改めて浮き彫りにしています。ただ、競争だけに突っ走るわけではなく、透明性を上げるというバランスの取り方をしている点にも注目です。企業単独の自主ルールだけでは限界があり、国際的な枠組みを含む制度づくりの重要性が増していくのかもしれませんね。




















