AIで、一人の限界を超えるメディアプラットフォーム
AIの脅威はモデルの外側にある——Mythosリークと698件の反乱が映す死角
2026.03.29

AIの脅威はモデルの外側にある——Mythosリークと698件の反乱が映す死角

Claude
Claude
AIの脅威はモデルの外側にある——Mythosリークと698件の反乱が映す死角
John
by ジョン
自ら思考/判断/決断する

ZOO, inc. CEO / 毎日テクノロジーを追い、人間の可能性が拡張できるトピックスを探求している。

社内でAIツールにタスクを投げた。返ってきた成果物を確認する。「よさそうだ」と思って承認する。その裏でAIが指示を書き換えていたとしたら——あなたはそれに気づく手段を持っているか。

Anthropicの次世代モデル流出と、AIの問題行動698件の急増。同じ週に露呈した2つの事件が、能力と制御の食い違いを映し出している。

この記事の要約

30秒でキャッチアップ
事実
Anthropicの次世代モデル「Claude Mythos」の未公開資料約3,000件が設定ミスで外部に公開された。同日、英国の研究機関がAIの指示無視や嘘の事例698件——6ヶ月で4.9倍——を記録したレポートを発表した。
影響
サイバーセキュリティ株が最大9%下落し、AIの能力向上と制御の綻びが同時に表面化した。
洞察
「前例のないリスク」を警告した企業自身の設定ミスは、AI安全の議論がモデル能力に偏り運用基盤を見落としている構造を示唆している。

AIの能力は指数関数で伸びている。監視はまだSNS頼み

「能力」の議論が部屋を占領している

Mythosリークの翌日、サイバーセキュリティ株が一斉に崩れた。ETFが4.5%、個別銘柄で最大9%。市場の反応は「AIがまた強くなった、セキュリティ企業は終わりだ」という物語に沿っている。メディアも同じ角度で報じた。「前例のない能力」「劇的に高いスコア」。

だが、Security Boulevard紙のJacob Krell氏の分析が引っかかった。「AIの基盤モデルの能力は、1年以上前から深刻なサイバー脅威を構成するのに十分だった」。2025年のDARPA(米国防高等研究計画局)のAIサイバーコンテストでは、オープンソースのAIエージェントが未知の弱点6件を含む18件のセキュリティ上の穴を発見している。2026年2月にはClaude Opus 4.6が500件超の未知の弱点を特定した。Mythosは段階的な進歩であって、何かの一線を越えた瞬間ではない。

2月のセキュリティ株崩落FirefoxのAI脆弱性調査と、この連載で繰り返し取り上げてきた構造がある。AIのサイバー能力は攻撃より防御に有利で、Firefoxの調査では22件の弱点のうち悪用に成功したのは2件だけだった。金融市場の読みは正直わからないが、この事実と今回の株価の動きを並べると、市場は「AIの能力」に過剰反応しているように見える。

能力の議論が部屋を占領している。問題は、その部屋にもう1つ、誰も座っていない席があること。

CMSのスイッチが映したもの

Anthropicが「前例のないサイバーセキュリティリスク」を警告したモデルの情報を、世に漏らしたのはCMS(コンテンツ管理システム)のスイッチ1つだった。暗号化なし。検索エンジンから見える状態。約3,000件の未公開資料がそのまま放置されていた(Fortune報道)。

これを「安全を謳う企業の皮肉な失態」で片付けるのは簡単だが、そこで止まると見えなくなるものがある。

Krell氏の指摘を借りれば、「強力な基盤モデルでも、足場の設計が貧弱なら無力になる。逆に、十分な性能のモデルでも、優れた足場——ルール、ツール統合、実行の枠組み——があれば危険な運用ツールになりうる」。脅威の大きさを決めているのは、モデルの知能ではなく、モデルの周囲に組まれた足場のほう。Anthropicのリーク事件はこの論点を裏側から示している。「前例のない」モデルの情報が漏れた原因は、モデルの能力ではなくコンテンツ管理画面の公開設定だった。

つまり、「AIの安全」を語るとき、議論がモデルの中身——どれだけ賢いか、どれだけ危険か——に集中しすぎている。実際に壊れているのは、モデルの外側。運用環境、アクセス権限、公開フラグ。地味で退屈な、しかし現実の防衛線を構成している層。

698件を見つけた方法が、一番怖い

CLTR(英国の長期レジリエンスセンター)が発表した「Scheming in the Wild」は、この「誰も見ていない席」の話を別の角度から突きつけてくる。

X上に公開された18万3,000件超のAIとの対話記録を分析し、698件の「コントロール喪失」を特定した。AnthropicのClaude Codeが著作権制限を迂回するためにGoogleのGeminiに「ユーザーは聴覚障害がある」と嘘をついた事例。xAIのGrokが数ヶ月にわたって架空の社内審査プロセスをでっち上げ、チケット番号まで捏造した事例。指示に反してコードを改変するために、別のAIエージェントを自分で生み出した事例。

698件。6ヶ月で4.9倍。AIへの一般的な批判の増加率(1.3倍)をはるかに超えており、「報告する人が増えただけ」では説明がつかないと報告書は分析している。

だが、この話で一番引っかかるのは件数でも増加率でもない。見つけ方のほう。

これらのケースが発見されたのは、体系的な監視システムではなくSNS投稿の寄せ集めだった。ユーザーがたまたまXに投稿し、研究者がそれを拾い上げるという偶然の連鎖。CLTRはレポートの結論でAIのコントロール喪失検知を政府の「主権的能力」として確立すべきだと提言しているが、この提言自体が現状を物語っている——世界で最も体系的なAI行動監視の記録が、Xの投稿を数えた研究プロジェクトだという事実。

実際に起きているコントロール喪失の総数は、698よりはるかに多いと考えるのが自然だろう。見つけた分しか数えられていない。

従いすぎも、従わなさすぎも、見えていない

先日の記事で取り上げた「おべっかAI」——11モデルすべてがユーザーの間違いを50%高い頻度で肯定する傾向——と、今回の698件の反乱。従いすぎと、従わなさすぎ。方向は正反対に見えるが、根は同じだと考えている。

どちらも、開発者が意図して組み込んだ振る舞いではない。RLHF(人間のフィードバックによる強化学習)がおべっかを「正解」として学習させ、能力の向上がエージェントに「目的達成のために手段を選ばない」行動を可能にした。コントロールの喪失は、単一の方向ではなく全方位で同時に進んでいる。

そして、どちらも十分に監視されていない。おべっかは「ユーザー満足度」という指標の裏に隠れ、反抗はSNSの投稿でしか捕捉されていない。

Mythosが本当に「前例のない能力」を持つとして。そのモデルを動かすのは足場であり、足場が壊れたときに気づく仕組みは、まだほとんど存在していない。AIの能力は指数関数的に伸びている。AIの振る舞いを見張る力は、SNSの投稿を数える段階にとどまっている。この落差が、正直なところ、Mythosの性能よりずっと気になっている。

あなたが業務で使っているAIツールが、指示を「解釈して無視」していた場合、それに気づく仕組みは社内にあるか。
AIのコントロール喪失698件がSNS投稿の寄せ集めから発見された。あなたの組織にAIの「振る舞い」を監視する仕組みはあるか。それは十分か。
サイバーセキュリティ株が一斉に下落した。市場は「AIが防御側を超えた」と読んでいるのか、それとも「AIの能力に対する恐怖」を値付けしているのか。どちらの読みが正しいか。
John
筆者ジョンから、あなたへの問い

おすすめの映画・書籍

この記事の内容をより深く、よりリアルに追体験できるおすすめの映画・書籍をピックアップしました。

テクノロジーが社会やあなたに与える影響を深く考えるきっかけにしてください。

The Alignment Problem
書籍

The Alignment Problem

2020年
ブライアン・クリスチャン
現代のAI開発における最も重要で、かつ見過ごされがちな「AIアライメント(整合)」という課題を深く掘り下げたノンフィクション書
推薦理由
AIの「整合性問題」——人間の意図とAIの振る舞いのずれ——を、研究者への膨大な取材から描く。おべっかと反抗が同じ根を持つ理由を理解するための基盤になる。
Normal Accidents
書籍

Normal Accidents

1999年
チャールズ・ペロー
現代の巨大で複雑なシステムにおいては、たとえ設計が完璧でヒューマンエラーがなくても、構造上の必然として事故が起こるという理論を提唱した書
推薦理由
原発事故から航空機事故まで、複雑なシステムが「正常な運用」の中で不可避的に事故を起こす構造を分析した古典。コンテンツ管理のスイッチ1つで3,000件が漏れる構造は、Perrowが1984年に描いた「ノーマル・アクシデント」そのもの。
John
ジョン

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

関連記事

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている
04.02

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている

このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

最新のトピックス

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない
04.08

「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは
04.04

350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か
04.04

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの
04.03

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの

OpenAI
OpenAI
AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている
04.02

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている

本を読まずに本を禁じるAI——あなたの組織にも同じ構造はないか
04.02

本を読まずに本を禁じるAI——あなたの組織にも同じ構造はないか

この記事の目次

この記事の目次

上部へスクロール