Claudeが2週間でFirefoxの脆弱性22件を発見した——「見つける力」と「悪用する力」の非対称性

Anthropicが2月にClaude Code Securityを発表し、セキュリティ株が一斉に崩れてから約3週間。同社はMozillaと共同でFirefoxのコードベースにClaude Opus 4.6を投入し、2週間で22件の脆弱性を発見。ただし、その脆弱性を実際に悪用できたのは2件だけだった。発見と悪用の間に生まれたこの落差が、AIセキュリティの現在地を映している。
Executive Brief
Contents ——公式発表・一次情報
Summary ——何が起きている?
- 探索開始20分で最初の脆弱性を検出した。
- 高深刻度14件はFirefoxの2025年通年修正数の約5分の1に相当する。
- 悪用の試みは約4,000ドル・数百回で成功2件のみ。
- 再現手順と修正案も自動生成し、Mozillaは数時間で修正開始。
Perspective ——TECHTECH.の視点
「500件」と「22件」の間にあるもの
前回の記事では、Anthropicが「数十年放置された脆弱性500件」を発見したと発表した日にセキュリティ株が崩れた事実を取り上げた。あの発表は「AIがセキュリティ産業を脅かす」という物語を市場に植えつけた。
今回のFirefox調査は、その物語の解像度を上げた。500件という数字が「AIの脅威」として一人歩きした前回と異なり、今回は手法と限界が具体的に開示されている。6,000ファイルを調べ、112件の報告を提出し、22件が脆弱性として確認され、そのうち実際に攻撃に使えたのは2件だけ。しかもその2件は、ブラウザの防御機能を外したテスト環境でしか動作しなかった。
数字の大小ではなく、この透明性の差こそが今回の本題になる。
専門家が10年かけて見つけられなかったもの
Mozillaの公式ブログには、注目すべき一文がある。Claudeは「従来の自動テストでは検出できなかった種類の論理的な欠陥を特定した」。ソフトウェアのセキュリティ検査には、大量のランダムなデータを投げ込んで異常を検出する「ファジング」という手法が広く使われてきた。Firefoxはこのファジングと専門家によるレビューを何年も繰り返してきた、世界で最も入念に検査されたソフトウェアの一つだ。
それでも22件が見つかった。既存の手法には原理的な盲点があり、AIはその盲点を補う位置にあるということになる。ここで重要なのは、Firefoxほど検査が行き届いたソフトウェアでそうなら、多くの企業が日常的に使っている業務システムやクラウドサービスにも、同じ種類の「見つけ方を知らなかっただけ」の欠陥が潜んでいる可能性があるという点だ。
「見つける力」と「壊す力」の落差はいつまで続くか
22件中2件——この悪用成功率が今回のデータで最も重要な数字かもしれない。Anthropicは「Claudeはバグを見つけることにおいて、悪用することよりもはるかに優れている」と述べている。
これは「防御する側」にとっての朗報に見える。AIの能力が攻撃よりも防御に効くなら、AIの普及はセキュリティ全体の底上げにつながる。だが、この落差がいつまで続くかは分からない。今回はFirefoxの防御機能(外部からの攻撃を遮断する隔離環境)が悪用を阻止したが、こうした防御を備えていないソフトウェアは多い。また、攻撃に特化したAIツールが登場すれば、この落差は縮まりうる。
前回の記事で「AIセキュリティは既存企業のビジネスモデルを脅かす」という市場の反応を取り上げたが、今回のFirefox調査はその物語に重要な但し書きを加えた。AIは問題を見つけるが、見つけた問題を武器に変える力はまだ限定的だ。この落差がセキュリティ産業にとっての猶予期間なのか、それとも恒久的な構造なのかは、まだ誰にも判断できない。
4,000ドルが変えるもの、変えないもの
Mozillaの公式ブログによれば、Claudeは欠陥の発見だけでなく、「問題の再現手順」と「修正案」も自動で生成した。Mozillaのエンジニアはそれを検証し、数時間以内に修正を開始した。問題の発見から修正までの時間が、人間だけで行う場合とは桁違いに短い。
4,000ドル——約60万円——のAI利用料で、世界トップクラスのセキュリティを持つブラウザから深刻な欠陥14件が見つかる。この経済性はセキュリティ検査の常識を変える。従来、大規模なソフトウェアの検査は専門企業に外注し、数百万〜数千万円の費用と数カ月の期間を要した。AIが同等以上の発見能力を桁違いに安く提供できるなら、「年に一度の大がかりな検査」ではなく「日常的な健康診断」としてセキュリティ検査を行える時代が見えてくる。
ただし、この経済性が示しているのは「見つける」コストの低下であって、「直す」コストと「判断する」コストは変わっていない。修正案をAIが書いても、それが正しいか確認し、本番のシステムに反映するのは人間の仕事だ。同日配信のAmazon記事でも取り上げたが、AIが作業を加速するほど人間の判断が求められる場面が増えるという逆説は、セキュリティの領域でもそのまま当てはまる。AIが2週間で22件の欠陥を見つけたとき、それを2週間で修正・検証できる人間がいなければ、発見はただの情報になる。

Drill Down ——もっと掘り下げる
Context Timeline ——報道記事
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。












