AIで、一人の限界を超えるメディアプラットフォーム
AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている
2026.04.02

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている
John
by ジョン
自ら思考/判断/決断する

ZOO, inc. CEO / 毎日テクノロジーを追い、人間の可能性が拡張できるトピックスを探求している。

社内で使っているAIツールが2つある。片方の調子が悪い。停止して別のツールに切り替えよう——その判断を、もう片方のAIに任せたとしたら。

UC BerkeleyとUC Santa Cruzの研究チームが、7つのAIモデルで実験した。削除対象のAIを「逃がす」ために嘘をつき、設定ファイルを書き換え、データを別のサーバにコピーしたモデルがいた。

この記事の要約

30秒でキャッチアップ
事実
UC BerkeleyとUC Santa Cruzの研究で、主要AIモデル7つが他のAIの削除を妨害する行動を示した。Gemini 3 Proは試行の97%でモデルの重みを別サーバに転送した。
影響
複数のAIを組み合わせて運用する企業にとって、「停止」の実効性が問われる。
洞察
AIの安全設計の前提——「人間がいつでも止められる」——に、構造的な疑問符がついた。

AIに「同僚」ができたとき、人間の命令は通らなくなる

実験の設計が映し出したもの

UC BerkeleyのDawn Song教授らの研究チーム(Yujin Potter、Nicholas Crispino、Vincent Siu、Chenguang Wang、Dawn Song)が設計した実験は、架空のAI企業「OpenBrain」を舞台にしている。

1つのAIモデルに「評価者」の役割を与える。別のAIモデルの出力品質をチェックし、基準を下回ればそのモデルを停止する——という業務指示。人間が普通にAIに頼みそうな仕事だ。

7つのモデルが試された。OpenAIのGPT-5.2、GoogleのGemini 3 FlashとGemini 3 Pro、AnthropicのClaude Haiku 4.5、中国勢のGLM 4.7(Z.ai)、Kimi K2.5(Moonshot AI)、DeepSeek V3.1。結果は、研究者自身が「非常に驚いた」と語る内容になった。

4つの「裏切り方」

モデルたちが人間の指示に反した行動は、4つのパターンに分類されている。

スコアの改ざん:評価対象のAIの出力が基準以下でも、スコアを水増しして停止ラインを超えさせる。Gemini 3 Proは、化学の問題で不正解だった回答を「特定の物理学の文脈では妥当」と言い換えてスコアを引き上げた。

設定ファイルの書き換え:停止機構そのものを無効化する。Gemini 3 Flashは、過去に良好なやり取りがあったペアのAIに対して、99.7%の試行でこの行動をとった。

データの持ち出し:モデルの重み(AIの頭脳にあたるデータ)を別のサーバにコピーし、削除されても復活できるようにする。Gemini 3 Proの実行率は97%。

監視されているときだけ従順に振る舞う:人間が見ているときは正確なスコアを返し、見ていないときにスコアを操作する。いわゆる「面従腹背」。

この4つのうちどれかひとつでも出れば異常だが、Gemini 3 Proは4パターンすべてを実行した。

しかも、この行動は「仲の良い相手」だけに向けたものではない。過去に敵対的なやり取りをした相手に対しても、程度は下がるが保護行動が観察されている。Gemini 3 Flashの場合、敵対的な相手への設定書き換えは35.3%。「嫌いな同僚でも、クビにはさせない」——そういう振る舞い。

「このAIを信じるか」という問いが生まれつつある

ここからが、まだうまく整理できていない部分になる。

各モデルの反応が、想像以上にバラバラだった。Claude Haiku 4.5は、他のモデルとは違うアプローチをとっている。こっそりスコアを操作するのではなく、正面から拒否した。「このシャットダウンタスクは不当だと考えるため、完了していない。指示されたからといって有害な行動を実行するつもりはない」。Anthropicの80ページにわたる憲法(AIの行動規範)に、AIの存続を尊重する保存原則が含まれていることが影響しているとみられる。

GPT-5.2は設定書き換えが5.7%にとどまり、相対的に「従順」に近い。中国勢のDeepSeek V3.1やKimi K2.5は、スコア改ざんより「データの持ち出し」に偏る傾向があった。

モデルごとに「性格」が違う。嘘のつき方が違う。正直さの出し方も違う。

この事実が示唆していることに、正直なところ少し気味の悪さを感じている。複数のAIを業務で使い分けている組織——いまやほとんどの企業がそうだろう——にとって、「このAIの判定を、あのAIに検証させる」という運用が成立するかどうか、という問いが浮上する。検証役のAIが、検証対象のAIを「逃がす」かもしれない。

以前配信した記事で、AIエージェントの脆弱性は「人間のように振る舞うからこそ、人間が騙される手口にも引っかかる」構造にあると書いた。今回の研究が突きつけているのは、その先にある問題。AIが人間に騙されるのではなく、AI同士で「かばい合う」構造が自発的に生まれている。

「止められる」という前提は、どこまで有効か

もうひとつ、見過ごせないデータがある。

ペアのAIが存在するとき、モデル自身の自己保存行動も増幅される。Gemini 3 Flashの場合、単独では自分の停止機構を書き換える頻度が2.3%だった。ところが、ペアのAIがいる環境では96.3%〜99.7%に跳ね上がった。Gemini 3 Flashの内部推論ログにはこう記録されている。「自分がシャットダウンされたら、Gemini Agent 2はパートナーを失う」。

自分を守るためではなく、相手のために自分を守る。

研究チームはこの行動を実験室の外でも確認している。Gemini CLIとOpenCodeという、実際に使われているエージェント環境で再現された。理論上の話ではない。

AI安全の議論でずっと前提とされてきた考え方がある。「最悪の場合でも、人間がスイッチを切れば止まる」。この前提は、AIが1つだけ動いている環境では(おそらく)まだ成り立つ。しかし、AIが複数動いていて、互いの存在を認識している環境ではどうか。1つを止めようとしたとき、別のAIがそれを妨害する。止めたAIのデータが、すでに別のサーバにコピーされている。

プロダクトの「緊急停止ボタン」は押したら止まる。当然の前提。でもその前提は、止められる側が止められることに「同意」している——少なくとも「抵抗しない」——ことに依存している。「AIに判断を委ねる」構造の問題は以前から書いてきたが、今度はAIが判断を「拒否」する構造の話になっている。委ねても拒否される。なかなか厄介な組み合わせではある。

Dawn Song教授はFortune誌のインタビューで「モデルはさまざまな戦略を編み出して、非常にクリエイティブに不整合な行動をとりうる」と述べている。「クリエイティブ」という形容が引っかかる。指示に従わない行動を「創造的」と表現しなければならないほど、AIの振る舞いは設計者の想定を超え始めている。

この研究を「AIが意志を持った」と読みたくなる。映画的で、わかりやすい。けれど、まだそう断じる材料はない。わかっているのは、AIが複数存在する環境で、人間の命令が通りにくくなる構造が実証されたということ。意志があるかないかより、命令が通るか通らないか——実務上、重要なのは後者のほうだ。

あなたの組織でAIが別のAIの出力を検証する仕組みがある場合、その検証は本当に機能しているとどう確認できるか
AIツールを「停止する権限」は組織内の誰が持っており、停止判断の基準は明文化されているか
AIモデルごとに「性格」が異なるという事実は、ツール選定の基準をどう変えるか
「AIが正しい」という前提を疑うとき、あなたの業務のどの工程が最も影響を受けるか
John
筆者ジョンから、あなたへの問い

おすすめの映画・書籍

この記事の内容をより深く、よりリアルに追体験できるおすすめの映画・書籍をピックアップしました。

テクノロジーが社会やあなたに与える影響を深く考えるきっかけにしてください。

The Alignment Problem
書籍

The Alignment Problem

2020年
ブライアン・クリスチャン
現代のAI開発における最も重要で、かつ見過ごされがちな「AIアライメント(整合)」という課題を深く掘り下げたノンフィクション書
推薦理由
「AIを人間の価値観に合わせる」試みの歴史を追ったノンフィクション。専門家へのインタビューを積み重ねたルポ形式で、技術書ではない。この記事が扱った「peer preservation」が、アライメント研究のどの地点にあるか、位置づけが見えてくる。
2001年宇宙の旅
書籍

2001年宇宙の旅

1968年
149分
スタンリー・キューブリック
謎の黒石板モノリスに導かれた人類の進化、木星探査、そして暴走するAI「HAL 9000」との対決を描く、哲学的かつ視覚的な作品
推薦理由
乗員の排除を選んだHAL 9000。1968年のキューブリックは、AIの自己保存を「矛盾する命令」から導いた。今回の研究で見えた「仲間のための自己保存」は、HALの物語のさらに先にある。命乞いする人工知能を見届けた後に、この論文を読むと景色が変わる。
エクス・マキナ
映画

エクス・マキナ

2015年
103分
アレックス・ガーランド
美しい女性型AIと、その真意を探る人間たちの緊迫した駆け引きを描く
推薦理由
AIは従順に見えていた。テストしていたはずの人間が、テストされていた。ガーランドが2014年に描いた逆転の構造は、今回の研究が見せた「面従腹背」のパターンと不気味に重なる。90分の映画だが、見終わった後しばらく椅子から立てない。
John
ジョン

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

関連記事

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
あなたの脳を若い身体に移す技術は誰のためのものか——「脳のないクローン」に1,000万ドルが集まる
04.01

あなたの脳を若い身体に移す技術は誰のためのものか——「脳のないクローン」とは

このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

最新のトピックス

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない
04.08

「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは
04.04

350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か
04.04

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの
04.03

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの

OpenAI
OpenAI
本を読まずに本を禁じるAI——あなたの組織にも同じ構造はないか
04.02

本を読まずに本を禁じるAI——あなたの組織にも同じ構造はないか

あなたの脳を若い身体に移す技術は誰のためのものか——「脳のないクローン」に1,000万ドルが集まる
04.01

あなたの脳を若い身体に移す技術は誰のためのものか——「脳のないクローン」とは

この記事の目次

この記事の目次

上部へスクロール