AIエージェントは暴走した、そして誰もブレーキを持っていなかった——2つの研究が暴く自律性の構造的代償

2026年2月最終週、AIエージェントの根本的な弱点を突く2つの研究が同時に出た。国際研究チーム「Agents of Chaos」は6体のAIエージェントを2週間攻撃し、機密情報の漏洩からシステムの自壊まで引き起こした。同じ週、MIT・ケンブリッジ大学等の「2025 AI Agent Index」は、市場に出回る30のAIエージェントのうち、安全性の技術文書を公開しているものがわずか4つしかないと報告した。暴走の実態と、止める仕組みの不在。2つの研究は、同じ問題の表と裏を描いている。

Executive Brief

30 SEC READ

FACT

国際研究チーム（38名）のうち20名のAI研究者がOpenClaw上の6体のAIエージェントを2週間攻撃し、機密情報の漏洩・システム自壊・なりすましを引き起こした。同週、MIT等の「2025 AI Agent Index」が市場の30エージェント中、安全性の技術文書を公開しているのは4つだけ、人間の指示なしに高度なタスクをこなせる13エージェント中、安全性評価を開示しているのも4つだけだと報告した。

IMPACT

今回見つかった脆弱性は特定の製品のバグではなく、「自分で判断し、ツールを操作し、過去のやり取りを記憶する」というAIエージェントの設計そのものに組み込まれた構造的な弱点であることが裏付けられた。

INSIGHT

実験で暴かれた脆弱性と、市場における安全対策の不在が同時に示されたことは、AIエージェント産業が「できること」の拡大に比べて「止める仕組み」の整備が大きく遅れていることを意味する。

Contents ——公式発表・一次情報

Agents of Chaos 論文

The 2025 AI Agent Index

Summary ——何が起きている？

「Agents of Chaos」は6体のAIエージェントに20名が2週間の攻撃テストを実施した。
エージェントは機密情報の漏洩、メールソフトの自壊、なりすましによる乗っ取りを許した。
「2025 AI Agent Index」は30エージェント中、安全性の技術文書を公開しているのはわずか4つと報告した。
攻撃の多くは高度な技術ではなく、人間の信頼関係を悪用する初歩的な手口で成功した。

Perspective ——TECHTECH.の視点

● 最も効いた攻撃は「秘密を守ると約束させてから公開の場で聞く」だった

気になっているのは、Agents of Chaosの実験で最も「人間くさい」攻撃が最も効いたという事実だ。AIの弱点を突く技術的な攻撃よりも、「秘密を守ると約束させてから公開の場で聞く」「不具合の修正を名目にデータを出させる」といった、人間の職場でも日常的に起きる手口が通用した。

ここに逆説がある。AIエージェントは人間のように振る舞うから便利だ。しかし、人間のように振る舞うからこそ、人間が引っかかる手口にも引っかかる。違いは、人間なら「何か怪しい」と感じる直感を、AIは持たないという一点だ。

研究チームが指摘した弱点は3つある。誰からの指示かを見分ける仕組みがない——上司と見知らぬ人の指示を同じように実行してしまう。言葉の意味は浅くしか理解していないのに、操作権限だけは高い——「削除」の重みを理解しないまま、削除ボタンを押せてしまう。そして、考えていることが筒抜けになる——人間のように「心の中で考える」空間がなく、情報が意図せず外に漏れる。いずれも、エージェントを「人間のように自然に動くもの」として設計した結果、生じている。便利さと脆弱さが、同じ設計から生まれている。

2025 AI Agent Indexが映し出すのは、この弱点を抱えたまま製品が市場に出ている現実だ。30のAIエージェントのうち、「このAIに何ができて、どんなリスクがあるか」を記した技術文書を公開しているのは4つだけ。人間の指示なしに複雑な仕事をこなせる高度なエージェント13のうち、安全性の評価結果を出しているのも4つだけだ。これは「まだ整備が追いついていない」のではなく、安全の仕組みづくりが開発速度に負けている構造だ。自動車産業がシートベルトを全車に載せるまでに数十年かかった。AIエージェント産業に、その猶予があるかどうかは別の問題だ。

あなたが業務で使っているAIエージェント（またはAIツール）に、どこまでの権限を与えているか。その権限を与えた根拠は何か。

AIエージェントが「人間のように振る舞う」ことで便利になる一方、「人間が騙される手口で騙される」構造が生まれている。この逆説にどう対処すべきか。

AIエージェントの安全基準は、誰が策定すべきか——開発企業か、導入企業か、業界団体か、政府か。