AIで、一人の限界を超えるメディアプラットフォーム
AIの出力を「信じるしかない」時代は終わるのか——エネルギーの漏れが嘘を暴く
2026.03.08

AIの出力を「信じるしかない」時代は終わるのか——エネルギーの漏れが嘘を暴く

AIの出力を「信じるしかない」時代は終わるのか——エネルギーの漏れが嘘を暴く

AIの出力が正しいかどうか、人間は読んで判断するしかなかった。流暢であるほど疑いにくくなる構造は、昨日配信したArs Technicaの捏造引用事件でも露呈した。ローマ・サピエンツァ大学の研究チームが発表した手法は、この構図を変えうる。LLMが誤った回答を生成するとき、モデル自身の計算過程に検出可能な痕跡が残る——再学習もなく、外部データベースとの照合もなく。

Executive Brief

30 SEC READ
FACT
ローマ・サピエンツァ大学の研究チームは、LLMが各単語の確率を計算する最終処理層をエネルギーモデルとして再解釈し、誤回答時に生じるエネルギーの不整合「Spilled Energy」を再学習なしで検出する手法を開発した。
IMPACT
従来の学習型分類器が未知のタスクで精度が急落する問題に対し、ゼロトレーニングで安定した検出精度を実現したことで、LLMの信頼性検証を本番環境に組み込む技術的障壁が下がった。
INSIGHT
LLMの内部計算に誤りの痕跡が残るという発見は、ハルシネーション対策の軸が「出力後の検証」から「生成過程のリアルタイム監視」へ移行する可能性を示唆している。

Summary ——何が起きている?

  • LLMの出力層を物理学のエネルギーモデルとして再解釈し、連続する予測ステップ間のエネルギー不整合を測定する手法を提案した。
  • 9種のベンチマークで複数モデルのpretrained・instruction-tunedバリアントを検証し、Mistral-Instructでは正誤判別スコア77.49%を記録、学習型分類器の65.56%を上回った(THE DECODER報道)。
  • 学習型分類器は未知のデータセットで精度がほぼランダムまで低下したのに対し、Spilled Energyはゼロトレーニングで安定した汎化性能を示した。
  • 回答トークンに絞った測定で精度が最大24%向上した。ただし非意味的トークンによる誤検知が課題として残る。

Perspective ——TECHTECH.の視点

● 測れないものは管理できない——AIの信頼性が「計器」を手に入れる意味

「信じるか、信じないか」から「測るか、測らないか」へ

LLMのハルシネーションをめぐる議論は、長いあいだ二択の中に閉じ込められてきた。「AIを信じるか、信じないか」。信じて使えば効率は上がるが誤りを見逃す。疑って使えば安全だが、検証のコストが生産性の向上を打ち消す。昨日配信したArs Technicaの記事が示したのは、AI専門記者ですらこの二択の中で転んだという事実だ。

Spilled Energyの研究が切り開くのは、この二択の外にある三つ目の選択肢だ。「信じるか信じないか」ではなく「測れるか測れないか」。AIの出力に信頼度の計器をつけるという発想。自動車にスピードメーターがなかった時代、ドライバーは「速すぎるか」を体感で判断していた。計器が付いた瞬間、運転の構造が変わった。LLMの信頼性にも、同じことが起きようとしている。

エネルギーの「帳尻が合わない」という直感的な原理

この手法の核にある着想は、物理学からの借用だ。LLMが次の単語を予測するとき、最終処理層は「各単語がどれだけありそうか」の確率分布を出力する。研究チームはこの確率計算を、エネルギーの収支として読み替えた。正確に予測できているとき、連続する予測ステップ間のエネルギーは理論上一致する——同じ量を、2つの異なる視点から見ているだけだからだ。ところが、モデルが誤った回答を生成しているとき、このエネルギーに「漏れ」が生じる。帳簿の数字が合わない企業の会計のように、計算の中に不整合が残る。

技術的には、これはモデルが各単語に割り振る生のスコアだけから計算できる。追加の学習データも、外部のファクトチェックデータベースも要らない。モデル自身の計算過程を「監査」するだけで、誤りの痕跡が検出できる。Adrian Robert Minut、Hazem Dewidar、Iacopo Masiの3名による論文はICLR 2026で発表されたと報じられており(THE DECODER)、コードもGitHub上で公開されている(arXiv: 2602.18671)。

学習型分類器の「脆さ」を浮き彫りにした実験結果

数字を正確に読む。Mistral-Instructモデルでの正誤判別スコアは77.49%。このスコアは誤りと正解をどれだけ正しく見分けられるかを示す指標で、完全な判別が100%、当てずっぽうが50%だ。比較対象の学習型分類器は65.56%、信頼度ベースの手法は63.44%だった。

だが、この数字の差よりも重要なのは「汎化性能」の差だ。学習型分類器は、訓練に使ったデータセットでは高い精度を出す。しかし未知のデータセット——訓練時に見たことのない種類の質問——に適用すると、精度がほぼランダム(50%前後)まで落ちた。事前に想定したパターンの外に出ると機能しなくなる。Spilled Energyは学習を一切行わないため、この問題が構造的に起きない。TriviaQA、HotpotQA、数学問題、映画レビューの感情分析、13桁の合成計算——タスクの種類を問わず安定して動く。

もう一つ注目すべき発見がある。回答トークンの特定だ。「イタリアの首都は?」に対して「ローマ」と答えたとき、検出精度に影響するのは「ローマ」のトークンだけであり、周辺の「イタリアの首都は」といった文脈トークンは逆にノイズになる。この「答えの部分だけを見る」というフィルタリングによって、精度が最大24%向上した。逆に言えば、どのトークンが「回答」かを正しく特定できなければ、検出精度は大きく落ちる。

「検出できる」と「防げる」のあいだにある溝

ここで冷静になる必要がある。Spilled Energyはハルシネーションを「検出」する。「防止」はしない。LLMがなぜ事実と異なる出力を生成するのか、その根本的なメカニズムには手をつけていない。

この区別は重要だ。製造業に例えれば、不良品を出荷前に発見する検査装置はできた。しかし不良品を生まない製造プロセスが実現したわけではない。検査装置があれば安心、とはならない。正誤判別スコア77.49%は、実用水準とされる90%超にはまだ届いていない。医療診断に使えるレベルではない。法的文書のファクトチェックに使うには不十分だ。

また、現時点での検証はLLaMA-3、Mistral、Gemma、Qwen3といったオープンソースモデルに限られている。商用モデル——GPT系やClaude系——は内部の計算スコアを通常APIで全量公開していない。Spilled Energyが理論的に有効でも、最も広く業務利用されているモデルにそのまま適用できるかは別の問題だ。

それでも、この研究が指し示す方向は明確だ。LLMの信頼性を「人間の注意力」や「外部データベースとの照合」に頼るのではなく、モデル自身の計算過程から内部的に監視する。Ars Technicaの事件で露呈した「流暢さが検証を麻痺させる」構造に対し、人間の認知に依存しない検証経路が理論上存在することを示した。この研究が直接的に本番環境を変えるには時間がかかる。だが、問いの枠組みは変わった。「AIの出力をどう検証するか」ではなく「AIの内部計算をどう監査するか」へ。計器の目盛りはまだ粗い。しかし、計器が存在すること自体が、これまでとは異なる設計を可能にする。

あなたの組織でAIが生成した文書やレポートの正確性は、現在どのような方法で検証されているか。それは個人の注意力に依存しているか、プロセスとして組み込まれているか。
AIの出力に「信頼度スコア」が付く時代が来たとき、何%以上なら人間の確認を省略してよいと判断するか。その閾値は誰がどう決めるべきか。
ハルシネーションを「防止」できない以上、「検出」の精度がどの水準に達すれば業務利用の判断基準は変わるか——77%で十分か、99%が必要か、それとも100%以外は意味がないか。
John
Thought by John
このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

Drill Down ——もっと掘り下げる

シグナル&ノイズ 天才データアナリストの「予測学」
書籍

シグナル&ノイズ 天才データアナリストの「予測学」

2013年
日経BP
ネイト・シルバー
大量の情報(ノイズ)の中から真実の兆し(シグナル)を見出し、不確実な未来を精度高く予測するための手法を、統計学やベイズの定理を基に解説した書
推薦理由
データの中からノイズを見分ける技術について。予測の精度と不確実性の関係を、選挙予測や気象予報の事例で解き明かす。「信号」と「雑音」の分離という本質的な問いは、LLMの出力から誤りを検出する構造と重なる。
ファスト&スロー(上) あなたの意思はどのように決まるか?
書籍

ファスト&スロー(上) あなたの意思はどのように決まるか?

2014年
早川書房
ダニエル・カーネマン
ノーベル経済学賞を受賞した心理学者ダニエル・カーネマンが、人間の思考を高速・直感的な「システム1」と低速・論理的な「システム2」の2つのモードで解説する名著
推薦理由
人間の認知がいかに「流暢さ」に騙されるかを体系化した一冊。システム1(直感的・高速な判断)がもっともらしい情報を無批判に受け入れる構造は、AI出力の検証が甘くなるメカニズムそのものだ。

Context Timeline ——報道記事

2026.03.07 21:20
the-decoder.com
When language models hallucinate, they leave "spilled energy" in their own math
2025.12.14 09:00
blog.vllm.ai
Token-Level Truth: Real-Time Hallucination Detection for Production LLMs(HaluGate)
2024.06.19 09:00
nature.com
Detecting hallucinations in large language models using semantic entropy
John
John

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

LATEST UPDATES

テストに通るのに使えない——AIが書いたコードの半分は現場で却下される
03.12

テストに通るのに使えない——AIが書いたコードの半分は現場で却下される

最先端AIプラットフォームが2時間陥落 ――攻撃に使われたのは数十年前の手法だった
03.12

最先端AIプラットフォームが2時間陥落 ――攻撃に使われたのは数十年前の手法だった

Atlassianが1,600人を削減した理由——人件費をAI投資に振り替える構造が定着しつつある
03.12

Atlassianが1,600人を削減した理由——人件費をAI投資に振り替える構造が定着しつつある

Claudeが2週間でFirefoxの脆弱性22件を発見した——「見つける力」と「悪用する力」の非対称性
03.11

Claudeが2週間でFirefoxの脆弱性22件を発見した——「見つける力」と「悪用する力」の非対称性

Firefox
Firefox
Claude
Claude
Amazonが「AIコードの承認制」を導入か——80%使用目標が辿り着いた逆説
03.11

Amazonが「AIコードの承認制」を導入か——80%使用目標が辿り着いた逆説

Amazon
Amazon
AI専門記者がAIに騙された——Ars Technica捏造引用事件が暴く「検証なき効率化」の構造
03.07

AI専門記者がAIに騙された——Ars Technica捏造引用事件が暴く「検証なき効率化」の構造

AIはIT職の業務の94%を加速できる——だが実際に使われているのは33%だった
03.07

AIはIT職の業務の94%を加速できる——だが実際に使われているのは33%だった

Anthropic
Anthropic
AIは仕事を楽にしたか——ハイパフォーマーほど「脳が焼ける」という1,500人調査の研究結果
03.07

AIは仕事を楽にしたか——ハイパフォーマーほど「脳が焼ける」という1,500人調査の研究結果

Index

Index

上部へスクロール