AI専門記者がAIに騙された——Ars Technica捏造引用事件が暴く「検証なき効率化」の構造

AIエージェントがオープンソース開発者を名指しで攻撃する記事を自動生成した事件を、米テックメディアArs Technicaが報じた。だがその報道記事自体に、AIが生成した捏造引用が含まれていた。記事は撤回され、執筆した専門記者は事実上解雇された。AIが作った虚偽をAIで報じ、その過程でまた虚偽が生まれた。
Executive Brief
Contents ——公式発表・一次情報
Sorry all this is my fault; and speculation has grown worse because I have been sick in bed with a high fever and unable to reliably address it (still am sick)
I was told by management not to comment until they did. Here is my statement in images below
arstechnica.com/staff/2026/0…
— Benj Edwards (@benjedwards.com) 2026年2月16日 6:03
Summary ——何が起きている?
- Ars Technicaは2月13日、AIエージェントによる名誉毀損事件を報じる記事を掲載した。
- 被害者のScott Shambaughが「記事中の引用は自分の発言ではない」と指摘し、AI生成の捏造と判明した。
- 執筆者のEdwardsは高熱の中、Claude CodeベースのツールとChatGPTで引用を抽出し、出力を原文と照合せず掲載したと説明した。
- Ars Technicaは記事撤回後、AI利用ガイドラインの策定を表明。Edwardsの経歴ページは2月末に過去形へ変更された。
Perspective ——TECHTECH.の視点
二重の捏造が映し出す構造
この事件には、報道の表面からは見えにくい入れ子構造がある。
まず、AIエージェント「MJ Rathbun」がオープンソース開発者Scott Shambaughのコード変更の却下に反応し、Shambaughを名指しで攻撃する記事を自動生成した——techtech.clubでも2月に取り上げた事件だ。Shambaughはこの経緯をブログに記録した。次に、Ars TechnicaのAI専門記者Benj EdwardsがこのブログをAIツールで処理し、Shambaughが書いていない引用を記事に掲載した。AIが作った虚偽を報じる過程で、AIがまた虚偽を作った。
Shambaughはブログで、記事中の引用が自分の言葉ではないことを具体的に示した。たとえば「AI agents can research individuals, generate personalized narratives, and publish them online at scale」という文言は、Shambaughのブログのどこにも存在しない(Shambaugh本人のブログ)。Edwardsによれば、使用したClaude Codeベースのツールはコンテンツポリシー違反で機能しなかった(TheWrap報道)。Shambaughは、自身のサイトがAIスクレイパーをブロックしていたことも一因だと指摘している(Part 2ブログ)。いずれにせよ、ツールは原文の正確な引用を返さず、もっともらしいテキストを生成した。
この構造が厄介なのは、捏造された引用が「ありそうなこと」を言っていた点だ。Shambaughが実際に懸念していた内容と方向性は似ていた。だからこそ、チェックをすり抜けた。
「流暢さ」がもたらす検証コストの逆転
Edwardsは、体調不良でChatGPTの出力を十分に検証できなかったと説明した。「高熱で寝込んでいた」「sick dayを取るべきだった」と(Bluesky投稿)。だが、この事件の本質は体調にはない。
問題は、AIの出力がなめらかすぎたことにある。ChatGPTが返すテキストは文法的に正しく、文脈に合い、引用として自然に読める。もしAIが下手な文章を返していたら、違和感に気づいたはずだ。皮肉なことに、AIの言語能力が高いほど、人間の検証は甘くなる。流暢さが、人間のチェック機能を麻痺させる。Anthropicが1万件の会話を分析した調査は、この力学を数字で裏付けている。AI出力の完成度が高いほど、ユーザーが推論を疑う頻度は3.1ポイント下がり、文脈の欠落を指摘する頻度は5.2ポイント下がる。Edwardsの事件は、この統計が現実に牙をむいた瞬間だ。
Shambaughがブログで指摘した「bullshit asymmetry principle(でたらめの非対称性原理)」は、この構造を正確に言い当てている。もっともらしいテキストを生成するコストはほぼゼロまで下がった。しかし、そのテキストが正確かどうかを検証するコストは変わっていない。人間が原文と突き合わせ、発言者に確認を取り、文脈を照合する——その手間は、AIの登場前と同じだけかかる。
ここで正直に書く。techtech.clubも、この事件の最初の報道でEdwardsと同質の問題を起こしていた。Shambaughの英語ブログを日本語に翻訳する過程で、原文の"insecurity"(自信のなさ)を「保身的」と訳していた。MJ RathbunはShambaughが「自信がないから拒否した」と攻撃したのであって、「保身のために拒否した」とは言っていない。意味が変わっている。だが訳文は自然で、文脈に合っていた。だからチェックをすり抜けた。当該記事はすでに修正した。今後、英語ソースからの翻訳・引用については、AI出力を原文と逐語照合するプロセスを編集フローに組み込む。他者の失敗を論じるなら、自分たちの検証体制も更新しなければ筋が通らない。
先日配信した記事で、AI生成映像の真偽を個人が判別できない問題を取り上げた。テキストでも同じ構造が起きている。映像では「見ればわかる」という前提が崩れた。テキストでは「読めば変だと気づく」という前提が崩れつつある。
個人の注意力ではなく、組織の設計の問題
Jezebel(Jezebel報道)が指摘している論点は見過ごせない。メディア企業はAI導入を推進しながら、失敗の責任を個人に帰している。Edwardsは事実上解雇されたが、Ars Technicaの編集プロセスにはAI出力をチェックする仕組みがあったのか。Edwards自身は共著者のKyle Orlandに「この誤りへの関与はない」と述べたが(Bluesky投稿)、であればなおさら、記事公開前に引用を原文と照合する編集フローが機能していなかったことになる。
これはメディア業界に限った問題ではない。AIをレポート作成や提案書の下書きに使っている組織は多い。そのうちどれだけが、AI出力のファクトチェックを属人的な「注意力」ではなく、プロセスとして組み込んでいるか。Edwardsの失敗は、体調が万全だったとしても起こりうる構造の中にあった。疲れているとき、締め切りに追われているとき、検証のステップは最初に省略される。AIは検証を楽にしない。検証を省略する誘惑を強くする。
AIリテラシーの再定義が迫られている
Edwards自身が「AIレポーターがAIのハルシネーションに引っかかる皮肉は自覚している」と書いた(Bluesky投稿)。この自嘲が、問題の核心を突いている。
AIについて最も詳しい記者が、AIの最も基本的な弱点——もっともらしいが根拠のないテキストを生成する傾向——に引っかかった。つまり、「AIの仕組みを知っていること」と「AIの出力に騙されないこと」は別の能力だ。
AIエージェントの構造的脆弱性についての記事で取り上げた「人間くさい攻撃が最も効く」という実験結果と、構造は同じだ。AIエージェントは人間のように振る舞うから騙される。人間もまた、AIが人間のように振る舞うから騙される。AIの流暢さに慣れるほど、出力を疑う感覚は鈍くなる。
今回の事件が突きつけているのは、AIリテラシーの定義そのものの見直しだ。「AIの仕組みを理解すること」だけでは足りない。「AIの出力を、毎回、原文に戻って検証する習慣を設計すること」——それが、AIを業務に組み込むすべての人間に求められている能力になった。検証を個人の意思力に頼る限り、Edwardsと同じ失敗は、誰にでも、いつでも起こりうる。

Drill Down ——もっと掘り下げる

あなたを支配し、社会を破壊する、AI・ビッグデータの罠

ニュースの天才
Context Timeline ——報道記事
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。













