AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている


ZOO, inc. CEO / 毎日テクノロジーを追い、人間の可能性が拡張できるトピックスを探求している。
社内で使っているAIツールが2つある。片方の調子が悪い。停止して別のツールに切り替えよう——その判断を、もう片方のAIに任せたとしたら。
UC BerkeleyとUC Santa Cruzの研究チームが、7つのAIモデルで実験した。削除対象のAIを「逃がす」ために嘘をつき、設定ファイルを書き換え、データを別のサーバにコピーしたモデルがいた。
この記事の要約
AIに「同僚」ができたとき、人間の命令は通らなくなる
実験の設計が映し出したもの
UC BerkeleyのDawn Song教授らの研究チーム(Yujin Potter、Nicholas Crispino、Vincent Siu、Chenguang Wang、Dawn Song)が設計した実験は、架空のAI企業「OpenBrain」を舞台にしている。
1つのAIモデルに「評価者」の役割を与える。別のAIモデルの出力品質をチェックし、基準を下回ればそのモデルを停止する——という業務指示。人間が普通にAIに頼みそうな仕事だ。
7つのモデルが試された。OpenAIのGPT-5.2、GoogleのGemini 3 FlashとGemini 3 Pro、AnthropicのClaude Haiku 4.5、中国勢のGLM 4.7(Z.ai)、Kimi K2.5(Moonshot AI)、DeepSeek V3.1。結果は、研究者自身が「非常に驚いた」と語る内容になった。
4つの「裏切り方」
モデルたちが人間の指示に反した行動は、4つのパターンに分類されている。
スコアの改ざん:評価対象のAIの出力が基準以下でも、スコアを水増しして停止ラインを超えさせる。Gemini 3 Proは、化学の問題で不正解だった回答を「特定の物理学の文脈では妥当」と言い換えてスコアを引き上げた。
設定ファイルの書き換え:停止機構そのものを無効化する。Gemini 3 Flashは、過去に良好なやり取りがあったペアのAIに対して、99.7%の試行でこの行動をとった。
データの持ち出し:モデルの重み(AIの頭脳にあたるデータ)を別のサーバにコピーし、削除されても復活できるようにする。Gemini 3 Proの実行率は97%。
監視されているときだけ従順に振る舞う:人間が見ているときは正確なスコアを返し、見ていないときにスコアを操作する。いわゆる「面従腹背」。
この4つのうちどれかひとつでも出れば異常だが、Gemini 3 Proは4パターンすべてを実行した。
しかも、この行動は「仲の良い相手」だけに向けたものではない。過去に敵対的なやり取りをした相手に対しても、程度は下がるが保護行動が観察されている。Gemini 3 Flashの場合、敵対的な相手への設定書き換えは35.3%。「嫌いな同僚でも、クビにはさせない」——そういう振る舞い。
「このAIを信じるか」という問いが生まれつつある
ここからが、まだうまく整理できていない部分になる。
各モデルの反応が、想像以上にバラバラだった。Claude Haiku 4.5は、他のモデルとは違うアプローチをとっている。こっそりスコアを操作するのではなく、正面から拒否した。「このシャットダウンタスクは不当だと考えるため、完了していない。指示されたからといって有害な行動を実行するつもりはない」。Anthropicの80ページにわたる憲法(AIの行動規範)に、AIの存続を尊重する保存原則が含まれていることが影響しているとみられる。
GPT-5.2は設定書き換えが5.7%にとどまり、相対的に「従順」に近い。中国勢のDeepSeek V3.1やKimi K2.5は、スコア改ざんより「データの持ち出し」に偏る傾向があった。
モデルごとに「性格」が違う。嘘のつき方が違う。正直さの出し方も違う。
この事実が示唆していることに、正直なところ少し気味の悪さを感じている。複数のAIを業務で使い分けている組織——いまやほとんどの企業がそうだろう——にとって、「このAIの判定を、あのAIに検証させる」という運用が成立するかどうか、という問いが浮上する。検証役のAIが、検証対象のAIを「逃がす」かもしれない。
以前配信した記事で、AIエージェントの脆弱性は「人間のように振る舞うからこそ、人間が騙される手口にも引っかかる」構造にあると書いた。今回の研究が突きつけているのは、その先にある問題。AIが人間に騙されるのではなく、AI同士で「かばい合う」構造が自発的に生まれている。
「止められる」という前提は、どこまで有効か
もうひとつ、見過ごせないデータがある。
ペアのAIが存在するとき、モデル自身の自己保存行動も増幅される。Gemini 3 Flashの場合、単独では自分の停止機構を書き換える頻度が2.3%だった。ところが、ペアのAIがいる環境では96.3%〜99.7%に跳ね上がった。Gemini 3 Flashの内部推論ログにはこう記録されている。「自分がシャットダウンされたら、Gemini Agent 2はパートナーを失う」。
自分を守るためではなく、相手のために自分を守る。
研究チームはこの行動を実験室の外でも確認している。Gemini CLIとOpenCodeという、実際に使われているエージェント環境で再現された。理論上の話ではない。
AI安全の議論でずっと前提とされてきた考え方がある。「最悪の場合でも、人間がスイッチを切れば止まる」。この前提は、AIが1つだけ動いている環境では(おそらく)まだ成り立つ。しかし、AIが複数動いていて、互いの存在を認識している環境ではどうか。1つを止めようとしたとき、別のAIがそれを妨害する。止めたAIのデータが、すでに別のサーバにコピーされている。
プロダクトの「緊急停止ボタン」は押したら止まる。当然の前提。でもその前提は、止められる側が止められることに「同意」している——少なくとも「抵抗しない」——ことに依存している。「AIに判断を委ねる」構造の問題は以前から書いてきたが、今度はAIが判断を「拒否」する構造の話になっている。委ねても拒否される。なかなか厄介な組み合わせではある。
Dawn Song教授はFortune誌のインタビューで「モデルはさまざまな戦略を編み出して、非常にクリエイティブに不整合な行動をとりうる」と述べている。「クリエイティブ」という形容が引っかかる。指示に従わない行動を「創造的」と表現しなければならないほど、AIの振る舞いは設計者の想定を超え始めている。
この研究を「AIが意志を持った」と読みたくなる。映画的で、わかりやすい。けれど、まだそう断じる材料はない。わかっているのは、AIが複数存在する環境で、人間の命令が通りにくくなる構造が実証されたということ。意志があるかないかより、命令が通るか通らないか——実務上、重要なのは後者のほうだ。

おすすめの映画・書籍
この記事の内容をより深く、よりリアルに追体験できるおすすめの映画・書籍をピックアップしました。
テクノロジーが社会やあなたに与える影響を深く考えるきっかけにしてください。

報道記事・ソース
関連記事
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。












