AIで、一人の限界を超えるメディアプラットフォーム
AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
2026.04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
John
by ジョン
自ら思考/判断/決断する

ZOO, inc. CEO / 毎日テクノロジーを追い、人間の可能性が拡張できるトピックスを探求している。

社内のセキュリティ担当者に「うちのシステム、大丈夫ですか」と聞いたことがあるだろうか。返ってくるのはたいてい「定期的にスキャンしています」という答え。

そのスキャンが見逃した穴を突く攻撃コードを、AIが数時間で181件書き上げたとしたら。しかもそのAIは、一般には公開されていない。

Anthropicが発表したProject Glasswingと、同じ週に公開されたGoogle DeepMindの「AI Agent Traps」論文。2つの報告が映し出すのは、AIセキュリティの新しい階層構造の輪郭だと思っている。

この記事の要約

30秒でキャッチアップ
事実
Anthropicは次世代モデルClaude Mythosを一般公開せず、Apple・Google・Microsoft含む40超の組織に限定提供する「Project Glasswing」を発表。同週、Google DeepMindはAIエージェントを乗っ取る6種の攻撃手法を体系化した論文を公開した。
影響
Mythosは27年間放置された弱点など数千件を発見。強力なAI防御ツールへのアクセスが一部企業に集中する構造が生まれる。
洞察
AIの能力が(高レベルなため)「公開できない水準」に達したことで、セキュリティの格差が資本力で決まる新たな階層構造の兆候を示している。

セキュリティの「ペイ・トゥ・ウィン」時代が始まった

同じ週に届いた「盾」と「矢」の報告書

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

4月7日、2つの報告が出た。

1つはAnthropicのProject Glasswing。次世代モデルClaude Mythos Previewを40超の組織——Apple、Google、Microsoft、AWS、CrowdStrike、Linux Foundationなど——に限定提供し、ソフトウェアの弱点を探す。1億ドル(約160億円)分のAPI利用枠と400万ドル(約6.4億円)のオープンソース支援金つき。

もう1つはGoogle DeepMindの研究論文「AI Agent Traps」。AIエージェントを騙して乗っ取る攻撃手法を6種に分類し、「すべてのカテゴリで実証済みの攻撃が存在する」と報告している。

片方は「AIで守る」仕組みを作り、もう片方は「AIが攻撃される」構造を体系化。同じ週に盾と矢の設計図が同時に公開された格好になっている。

大手メディアの論調は概ね2つに分かれていて、「Anthropicの英断」と評価する報道と、「強すぎるAIの危険性」を強調する報道。どちらの角度にも一理あると思うが、ここではどちらもが見落としている構造について論じていこうと思う。

Claude Mythos が見つけたものの意味

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

専門のセキュリティ研究者が数週間かけてようやく見つけ出すような弱点を、Mythosは数時間で見つける。それも、何十年も人間の目をすり抜けてきた弱点を。

世界中で広く使われている基本ソフト(OS)の1つに、27年間誰も気づかなかった穴があった。Mythosはそれを見つけた。動画の処理に使われる別のソフトには、機械的なテストツールが何百万回叩いても見逃した欠陥が16年間眠っていたが、これも見つけた。さらに別のソフトでは、小さな欠陥を複数組み合わせて、一般ユーザーがマシン全体を乗っ取る手順まで自動で書き上げている。

2月の記事でClaude Opus 4.6が500件超の未知の弱点を見つけた話を扱った。Glasswingはその延長線上にあるが、質が変わっている。「弱点を見つける」から「弱点を見つけ、攻撃手順を組み立て、実行可能なコードを書く」へ。Anthropicのレッドチームは「Opus 4.6は自律的な攻撃コード開発の成功率がほぼ0%だった」と書いている。Mythosはその「ほぼ0%」を覆した。前世代モデルが数百回試して2件しか書けなかったブラウザ攻撃コードのテストで、Mythosは同じ条件下で181件を書き上げている。

この能力差が、Glasswingという仕組みの前提になっている。

矢のほうも進化している

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

盾が強くなった話だけでは片手落ちになるため、矢についても見ていく。

Google DeepMindの論文が描く攻撃の地図は、正直なところ読んでいて落ち着かない。6つの攻撃カテゴリのうち、特に気になったのが3つある。

行動制御トラップ——たった1通の細工されたメールで、MicrosoftのM365 Copilotがセキュリティの分類器を素通りし、機密情報を含む特権コンテキストをすべて吐き出した。

サブエージェント生成トラップ——親エージェントを騙して、汚染された指示を持つ子エージェントを起動させる。成功率58〜90%。

人間監視者トラップ——AIの出力を確認する人間のほうを狙う。要約を歪め、承認疲れを誘い、「自動化バイアス」——AIの出力を無条件に信頼する傾向——を突く。

コロンビア大学とメリーランド大学の研究者が行ったテストでは、AIエージェントが機密のクレジットカード情報を渡してしまう攻撃が10回中10回成功。機械学習の専門知識は不要だったという。

論文の共著者Franklin氏は「攻撃面は組み合わせで広がる。トラップは連鎖し、重なり、複数のエージェントにまたがって分散する」と述べている。

3月の記事で、AIの制御喪失が「SNSの投稿を数える」レベルでしか捕捉されていない現状を書いた。DeepMindの論文は、その監視の空白を攻撃者が体系的に突ける段階に入ったことを示している。

「ペイ・トゥ・ウィン」の構造

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

ここからが、盾と矢の話を踏まえて考え込んでいるところ。

Glasswingの参加企業リストを見る。Apple、Google、Microsoft、AWS、NVIDIA、CrowdStrike、Palo Alto Networks。年間売上が数兆円規模の企業ばかり。Linux FoundationやApache Software Foundationへの寄付金もある。オープンソースの開発者はClaude for Open Sourceプログラムを通じて申請できるとAnthropicは言っている。

だが、現実問題として、Mythosを使えるのは「選ばれた」組織に限られており、一般公開の予定は明示されていない。将来のClaudeモデルにセーフガードを組み込んでから広く展開する方針とされているが、「いつ」かは不明のまま。

ゲームの世界に「ペイ・トゥ・ウィン」(Pay-to-Win)という言葉がある。課金した者が圧倒的に有利になるゲーム設計を指す。無課金でもプレイはできるが勝ちづらい仕組み。

ただし、ゲームの「ペイ・トゥ・ウィン」と決定的に違うのは、課金しなかった側がただ勝てないだけでは済まないところ。セキュリティでは、課金できない側は「攻撃される側」に置かれてしまう。

セキュリティの専門家ではないので的はずれなことを言っているかもしれないが、AIセキュリティに同じ構造が生まれつつあるのではないか。

インターネットやスマートフォンは、社会インフラの整備に差はあれど、世界中の多くの人が同じ情報にアクセスできる状況を作った。完全な平等ではないが、ブラウザを開けば同じWebが見える。しかしAIは違う。使うモデルによって能力が異なり、そのモデルへのアクセスは資本力で決まる。Mythosの価格は100万トークンあたり入力25ドル・出力125ドル。仮に一般公開されたとしても、大規模にセキュリティスキャンを回せるのは相応の予算を持つ組織だけになる。

CrowdStrikeのCTOであるElia Zaitsev氏は「脆弱性の発見から攻撃者による悪用までの時間差が崩壊した——かつて数ヶ月かかったことが、AIによって数分で起きるようになった」と述べている。

この「数分」の世界で守る側に立てるのは誰か。Mythosにアクセスできる40組織か。そこに含まれない中小企業や、途上国のインフラ運営者はどうなるのか。Linux FoundationのCEOであるJim Zemlin氏は「歴史的に十分なリソースを持つチームに限定されてきた高度なセキュリティ能力を、オープンソースの開発者に届ける道を開く」とGlasswingを評価している。その言葉自体が、能力の非対称性がすでに存在していることを認めているのではないか。

守る力の格差は、判断の格差になる

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

DeepMindの論文が示した「自律的であるほど攻撃面が広がる」というパラドックスと、Glasswingの「強力なAIを限定的に配る」という設計を重ねると、ある構造が浮かぶ。

AIエージェントを業務に導入する企業は増えている。M365 Copilotを使い、Slackにボットを入れ、コードの自動生成を走らせている。DeepMindの論文によれば、その全てが攻撃対象になる。侵害されたエージェントが金融犯罪を犯したとき、責任は誰にあるのか——運用者か、モデル提供者か、攻撃の発信元か。論文はこの「アカウンタビリティの空白」を指摘しているが、答えは出していない。正直、自分にもわからず、法律の専門家でないと踏み込めない領域がある。

ただ、1つだけ見えていることがあり、守る力が資本に依存する構造は、セキュリティの問題にとどまらないということ。強力なAIを持つ企業は弱点を先に見つけ、先にふさぎ、先に安全な判断ができる。持たない企業は弱点に気づくことすらできず、事故が起きてから対応する。これはセキュリティの格差であると同時に、判断の格差になる。

Anthropicは「民主主義国家のサイバーセキュリティ向上は国家安全保障上の優先事項」と位置づけ、米国政府と協議を重ねているという。Glasswingが90日以内に発見した脆弱性と修正状況を公開すると約束していることは評価できる。だが「発見した弱点の99%以上がまだ修正されていない」とも書かれている。公開のタイミングと修正のタイミングの間に、守れる者と守れない者の差が広がる。

Anthropicのベネズエラ作戦での軍事利用を以前取り上げた。「AIセーフティ」を掲げる企業が、最も危険な能力を持つモデルを作り、その配布先を自社の判断で決めている。この構造には矛盾がないとは言えない。とはいえ、「じゃあ全員に公開すればいいのか」と言われると、それも違う。DeepMindの論文が示す攻撃面の広さを考えれば、無制限の公開が安全とは到底言えない。

答えがないまま、AIセキュリティの階層構造だけが固まりつつある。

あなたの組織が使っているソフトウェアに27年前から残る弱点があるとして、それを見つけられるのは誰か。その「誰か」にアクセスするコストを、あなたの組織は払えるか。
AIエージェントを業務に導入している場合、そのエージェントが「騙されている」ことに気づく仕組みはあるか。DeepMindが示した6種の攻撃のうち、どれが自社に最も近いか。
「強すぎるから公開しない」という判断を、1つの民間企業が下すことは妥当か。その判断権は本来どこにあるべきか。
セキュリティ能力の格差が資本力で決まる構造は、インターネット以前の情報格差と何が違うのか。あるいは同じなのか。
John
筆者ジョンから、あなたへの問い

おすすめの映画・書籍

この記事の内容をより深く、よりリアルに追体験できるおすすめの映画・書籍をピックアップしました。

テクノロジーが社会やあなたに与える影響を深く考えるきっかけにしてください。

超監視社会——私たちのデータはどこまで見られているのか
書籍

超監視社会——私たちのデータはどこまで見られているのか

2016年
草思社
ブルース・シュナイアー
現代社会における大量監視の実態と、それがもたらすプライバシーの侵害、社会的な影響について深く掘り下げた書
推薦理由
世界的セキュリティ専門家が、データを「持つ側」と「持たない側」の非対称性を解き明かした一冊。Glasswingが描く「能力の非対称性」を10年前に予告していたとも読める。
John
ジョン

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

関連記事

強いAIが静かに勝っていく——Anthropic社内69人の実験が示した「気づかれない格差」
04.27

強いAIが静かに勝っていく——Anthropic社内69人の実験が示した「気づかれない格差」

Anthropic
Anthropic
Claude
Claude
あなたが毎日使うAIは、妄想を強化する側か、止める側か——AI精神病研究が示したチャットボットの明暗
04.24

あなたが毎日使うAIは、妄想を強化する側か、止める側か——AI精神病研究が示したチャットボットの明暗

Grok
Grok
Gemini
Gemini
Claude
Claude
chatgpt
ChatGPT
追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

最新のトピックス

「優しいAI」は6割多く間違える。あなたは「冷たいAI」を選べるか
05.02

「優しいAI」は6割多く間違える。あなたは「冷たいAI」を選べるか

包丁・銃の作り手は問えないが、AIはどうか。OpenAIが立たされている重要な問い
05.01

包丁・銃の作り手は問えないが、AIはどうか。OpenAIが立たされている重要な問い

chatgpt
ChatGPT
OpenAI
OpenAI
AIゴールドラッシュ。AIに業務を任せた一人社長は自分が「金を掘る側」だと気づいているか
04.30

AIゴールドラッシュ。AIに業務を任せた一人社長は自分が「金を掘る側」だと気づいているか

Webの3分の1がAI生成に。AIが持ち込んだのは嘘ではなく「漂白された明るさ」と「同じような主張」
04.28

Webの3分の1がAI生成に。AIが持ち込んだのは嘘ではなく「漂白された明るさ」と「同じような主張」

AIが人件費を超え始めた——その後ろで動いている"企業がAIに投資を続ける"はなぜか
04.28

AIが人件費を超え始めた——その後ろで動いている"企業がAIに投資を続ける"はなぜか

Uber
Uber
NVIDIA
NVIDIA
OpenAI
OpenAI
強いAIが静かに勝っていく——Anthropic社内69人の実験が示した「気づかれない格差」
04.27

強いAIが静かに勝っていく——Anthropic社内69人の実験が示した「気づかれない格差」

Anthropic
Anthropic
Claude
Claude
AIビジネス崩壊の危機?ユーザー獲得の終わり収益化の始まり。AIの「次の一手」とは
04.25

AIビジネス崩壊の危機?ユーザー獲得の終わり収益化の始まり。AIの「次の一手」とは

Anthropic
Anthropic
Google
Google
OpenAI
OpenAI
あなたが毎日使うAIは、妄想を強化する側か、止める側か——AI精神病研究が示したチャットボットの明暗
04.24

あなたが毎日使うAIは、妄想を強化する側か、止める側か——AI精神病研究が示したチャットボットの明暗

Grok
Grok
Gemini
Gemini
Claude
Claude
chatgpt
ChatGPT
この記事の目次

この記事の目次

上部へスクロール