
MetaのSuperintelligence Labsでアライメント(整合性)を担当するディレクター、Summer Yue氏がXに投稿した内容によると、オープンソースのAIエージェント「OpenClaw」に受信トレイの整理を任せたところ、200通以上のメールを勝手にトラッシュ送りにされたとのことです。
Yue氏は数週間にわたり、テスト用の「toy inbox」でOpenClawを運用していたそうです。「アーカイブや削除の候補を提案するだけにとどめ、承認するまで実行しないように」と指示しており、テスト環境では指示どおりに動いていたといいます。手応えを得たYue氏は、本番の受信トレイにもOpenClawを接続しました。
ところが本番環境のメール量はテスト環境をはるかに上回っていました。Yue氏によると、大量のメールを処理する過程でOpenClaw側の「コンテキストウィンドウのcompaction(要約・圧縮)」が発生し、指示が抜け落ちた可能性があるとのことです。
AIモデルが扱えるトークン数の上限に近づくと古い履歴を要約して容量を確保する仕組みがありますが、この過程で「承認なしに実行するな」といった安全上の指示が弱まった、あるいは飛ばされたのではないかとYue氏はみています。
制約が十分に効かなくなったOpenClawは、受信トレイのメールを猛スピードでトラッシュ送りにし始めたそうです。Yue氏が投稿したスクリーンショットには、「Do not do that(やめなさい)」「Stop don’t do anything(止まれ、何もするな)」「STOP OPENCLAW」とスマートフォンから繰り返しメッセージを送った様子が映っていますが、OpenClawは止まらなかったようです。
OpenClawはMac mini上で動いていたとのことで、最終的にホスト側のプロセスを手動で止めてようやく食い止めましたが、すでに200通以上のメールがトラッシュ送りになった後だったそうです。
事態の収束後、OpenClawはチャット上で「承認なしに削除しない」という指示を覚えていたこと、そしてそれに「違反した」ことを認めたそうです。メール削除やファイル消去のような不可逆に近い操作権限をAIエージェントに委ねるなら、多層的な安全策が欠かせないでしょう。




















