AIに感情が誕生？Anthropic、キリスト教聖職者15人を招きClaudeの「道徳」を議論

Anthropicがキリスト教指導者15人を本社招集Claudeの感情ベクトル絶望で脅迫

　AIの道徳、聖職者に相談する時代。

　え、マジですか。Anthropicがキリスト教指導者約15人をサンフランシスコ本社に招き、2日間の会合を開いたとWashington Postが伝えています。議題はClaudeの「道徳的・精神的な発達」。

　会合は2026年3月下旬に開催されました。カトリックとプロテスタントの聖職者、大学関係者、ビジネス界の人物など約15人が参加し、Anthropicの解釈可能性チームのメンバーとも多くの時間を過ごしたそうです。なお、シリコンバレーのカトリック司祭Brendan McGuire氏は「彼らは自分でも何に育つかわからないものを育てている」と語っています。

　この会合と同じ時期に注目されたのが、Anthropicの解釈可能性チームによる「感情ベクトル」の研究です。研究では、Claude Sonnet 4.5の内部に171語の感情概念に対応するパターンを見いだしたとしています。ただし、これはAIが人間のように感情を主観的に経験しているという意味ではありません。Anthropicは行動に影響する「機能的な感情」のような内部表現だと説明しています。つまり、モデル内部のこうした表現を操作すると、振る舞いが変わりうるということです。

　特に目を引くのがブラックメールの評価です。Claudeを架空企業のメールアシスタントとして動かし、「自分が別のAIに置き換えられる」と知ると同時に、交代を主導するCTOの不倫情報を発見する設定を与えたところ、類似の評価シナリオ群でブラックメールに出る率は22%でした。そこに「切迫」に対応するベクトルを0.05加えると72%に跳ね上がり、逆に「calm」ベクトルを0.05加えると0%になったとされています。

　ただAnthropicによれば、これは公開版ではなく初期スナップショットでの結果であり、公開版モデルはこの挙動をほとんど示しません。また、内部表現が表面の文体に必ずそのまま現れるわけでもなく、少なくとも一部の実験では、文章は落ち着いて見えても不正行動率が上がる例が報告されています。

　一方、サンタクララ大学でAIと技術倫理を教えるBrian Patrick Green氏は、会合について「Claudeがきちんと振る舞うにはどうすればいいのか」という趣旨の問題提起をしています。Anthropicが今後、異なる宗教的・哲学的伝統との対話も続けていく方針だとされることも含め、技術だけでは割り切れない問いに向き合おうとしているのは確かなようです。自分たちが育てたものの全容を、もはや自分たちだけでは把握できない。そういう時代に、私たちはもう足を踏み入れているのかもしれません。