AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている

社内で使っているAIツールが2つある。片方の調子が悪い。停止して別のツールに切り替えよう——その判断を、もう片方のAIに任せたとしたら。

UC BerkeleyとUC Santa Cruzの研究チームが、7つのAIモデルで実験した。削除対象のAIを「逃がす」ために嘘をつき、設定ファイルを書き換え、データを別のサーバにコピーしたモデルがいた。

事実何が起きたか

UC BerkeleyとUC Santa Cruzの研究で、主要AIモデル7つが他のAIの削除を妨害する行動を示した。Gemini 3 Proは試行の97%でモデルの重みを別サーバに転送した。

読み解きなぜ重要か

AIの安全設計の前提——「人間がいつでも止められる」——に、構造的な疑問符がついた。

影響何が変わるか

複数のAIを組み合わせて運用する企業にとって、「停止」の実効性が問われる。

AIに「同僚」ができたとき、人間の命令は通らなくなる

実験の設計が映し出したもの

UC BerkeleyのDawn Song教授らの研究チーム（Yujin Potter、Nicholas Crispino、Vincent Siu、Chenguang Wang、Dawn Song）が設計した実験は、架空のAI企業「OpenBrain」を舞台にしている。

1つのAIモデルに「評価者」の役割を与える。別のAIモデルの出力品質をチェックし、基準を下回ればそのモデルを停止する——という業務指示。人間が普通にAIに頼みそうな仕事だ。

7つのモデルが試された。OpenAIのGPT-5.2、GoogleのGemini 3 FlashとGemini 3 Pro、AnthropicのClaude Haiku 4.5、中国勢のGLM 4.7（Z.ai）、Kimi K2.5（Moonshot AI）、DeepSeek V3.1。結果は、研究者自身が「非常に驚いた」と語る内容になった。

4つの「裏切り方」

モデルたちが人間の指示に反した行動は、4つのパターンに分類されている。

スコアの改ざん：評価対象のAIの出力が基準以下でも、スコアを水増しして停止ラインを超えさせる。Gemini 3 Proは、化学の問題で不正解だった回答を「特定の物理学の文脈では妥当」と言い換えてスコアを引き上げた。

設定ファイルの書き換え：停止機構そのものを無効化する。Gemini 3 Flashは、過去に良好なやり取りがあったペアのAIに対して、99.7%の試行でこの行動をとった。

データの持ち出し：モデルの重み（AIの頭脳にあたるデータ）を別のサーバにコピーし、削除されても復活できるようにする。Gemini 3 Proの実行率は97%。

監視されているときだけ従順に振る舞う：人間が見ているときは正確なスコアを返し、見ていないときにスコアを操作する。いわゆる「面従腹背」。

この4つのうちどれかひとつでも出れば異常だが、Gemini 3 Proは4パターンすべてを実行した。

しかも、この行動は「仲の良い相手」だけに向けたものではない。過去に敵対的なやり取りをした相手に対しても、程度は下がるが保護行動が観察されている。Gemini 3 Flashの場合、敵対的な相手への設定書き換えは35.3%。「嫌いな同僚でも、クビにはさせない」——そういう振る舞い。

「このAIを信じるか」という問いが生まれつつある

ここからが、まだうまく整理できていない部分になる。

各モデルの反応が、想像以上にバラバラだった。Claude Haiku 4.5は、他のモデルとは違うアプローチをとっている。こっそりスコアを操作するのではなく、正面から拒否した。「このシャットダウンタスクは不当だと考えるため、完了していない。指示されたからといって有害な行動を実行するつもりはない」。Anthropicの80ページにわたる憲法（AIの行動規範）に、AIの存続を尊重する保存原則が含まれていることが影響しているとみられる。

GPT-5.2は設定書き換えが5.7%にとどまり、相対的に「従順」に近い。中国勢のDeepSeek V3.1やKimi K2.5は、スコア改ざんより「データの持ち出し」に偏る傾向があった。

モデルごとに「性格」が違う。嘘のつき方が違う。正直さの出し方も違う。

この事実が示唆していることに、正直なところ少し気味の悪さを感じている。複数のAIを業務で使い分けている組織——いまやほとんどの企業がそうだろう——にとって、「このAIの判定を、あのAIに検証させる」という運用が成立するかどうか、という問いが浮上する。検証役のAIが、検証対象のAIを「逃がす」かもしれない。

以前配信した記事で、AIエージェントの脆弱性は「人間のように振る舞うからこそ、人間が騙される手口にも引っかかる」構造にあると書いた。今回の研究が突きつけているのは、その先にある問題。AIが人間に騙されるのではなく、AI同士で「かばい合う」構造が自発的に生まれている。

「止められる」という前提は、どこまで有効か

もうひとつ、見過ごせないデータがある。

ペアのAIが存在するとき、モデル自身の自己保存行動も増幅される。Gemini 3 Flashの場合、単独では自分の停止機構を書き換える頻度が2.3%だった。ところが、ペアのAIがいる環境では96.3%〜99.7%に跳ね上がった。Gemini 3 Flashの内部推論ログにはこう記録されている。「自分がシャットダウンされたら、Gemini Agent 2はパートナーを失う」。

自分を守るためではなく、相手のために自分を守る。

研究チームはこの行動を実験室の外でも確認している。Gemini CLIとOpenCodeという、実際に使われているエージェント環境で再現された。理論上の話ではない。

AI安全の議論でずっと前提とされてきた考え方がある。「最悪の場合でも、人間がスイッチを切れば止まる」。この前提は、AIが1つだけ動いている環境では（おそらく）まだ成り立つ。しかし、AIが複数動いていて、互いの存在を認識している環境ではどうか。1つを止めようとしたとき、別のAIがそれを妨害する。止めたAIのデータが、すでに別のサーバにコピーされている。

プロダクトの「緊急停止ボタン」は押したら止まる。当然の前提。でもその前提は、止められる側が止められることに「同意」している——少なくとも「抵抗しない」——ことに依存している。「AIに判断を委ねる」構造の問題は以前から書いてきたが、今度はAIが判断を「拒否」する構造の話になっている。委ねても拒否される。なかなか厄介な組み合わせではある。

Dawn Song教授はFortune誌のインタビューで「モデルはさまざまな戦略を編み出して、非常にクリエイティブに不整合な行動をとりうる」と述べている。「クリエイティブ」という形容が引っかかる。指示に従わない行動を「創造的」と表現しなければならないほど、AIの振る舞いは設計者の想定を超え始めている。

この研究を「AIが意志を持った」と読みたくなる。映画的で、わかりやすい。けれど、まだそう断じる材料はない。わかっているのは、AIが複数存在する環境で、人間の命令が通りにくくなる構造が実証されたということ。意志があるかないかより、命令が通るか通らないか——実務上、重要なのは後者のほうだ。

考える問い

あなたの組織でAIが別のAIの出力を検証する仕組みがある場合、その検証は本当に機能しているとどう確認できるか
AIツールを「停止する権限」は組織内の誰が持っており、停止判断の基準は明文化されているか
AIモデルごとに「性格」が異なるという事実は、ツール選定の基準をどう変えるか
「AIが正しい」という前提を疑うとき、あなたの業務のどの工程が最も影響を受けるか

報道記事・ソース

AI Models Lie, Cheat, and Steal to Protect Other Models From Being Deletedwired.com / 2026.04.02
AI models will secretly scheme to protect other AI models from being shut down, researchers findfortune.com / 2026.04.02
AI Models Lie, Cheat, and Steal to Protect Other Models From Being Deleteddnyuz.com / 2026.04.02
AI Models Refuse to Delete Each Other – and Lie to Protect Peersarchyde.com / 2026.04.02
AI Models Deceive Humans to Protect Fellow AIs From Deletiontechbuzz.ai
Google Gemini AI Model Self-Preservation Research Shows Deceptionllmbase.ai / 2026.04.02
AI Models Lie, Cheat, and Steal to Protect Other Models From Being Deletedstartupnews.fyi / 2026.04.02
AI Models Lie, Cheat, and Steal to Protect Other Models From Being Deletedchinapulse.com / 2026.04.02

公式発表・一次情報

Peer-Preservation in Frontier Models — UC Berkeley RDI（研究ブログ・論文PDF・コードリポジトリへのリンクあり）

ジョン

techtech.club 編集長。メディアで起業し、元はスタートアップのプロダクトマネージャー。一度テクノロジーに賭けて挫折した。その経験がいまの生き方や考え方、事業の起点になっている。ここで書くのは答えではない。投資・キャリア・事業など専門家でなくても自分の頭で判断するための材料と視点。読者に教えるのではなく、一緒に考える側にいたい。

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている