AIの出力が正しいかどうか、人間は読んで判断するしかなかった。流暢であるほど疑いにくくなる構造は、昨日配信したArs Technicaの捏造引用事件でも露呈した。ローマ・サピエンツァ大学の研究チームが発表した手法は、この構図を変えうる。LLMが誤った回答を生成するとき、モデル自身の計算過程に検出可能な痕跡が残る——再学習もなく、外部データベースとの照合もなく。

事実 何が起きたか

ローマ・サピエンツァ大学の研究チームは、LLMが各単語の確率を計算する最終処理層をエネルギーモデルとして再解釈し、誤回答時に生じるエネルギーの不整合「Spilled Energy」を再学習なしで検出する手法を開発した。

読み解き なぜ重要か

LLMの内部計算に誤りの痕跡が残るという発見は、ハルシネーション対策の軸が「出力後の検証」から「生成過程のリアルタイム監視」へ移行する可能性を示唆している。

影響 何が変わるか

従来の学習型分類器が未知のタスクで精度が急落する問題に対し、ゼロトレーニングで安定した検出精度を実現したことで、LLMの信頼性検証を本番環境に組み込む技術的障壁が下がった。

Overview

  • LLMの出力層を物理学のエネルギーモデルとして再解釈し、連続する予測ステップ間のエネルギー不整合を測定する手法を提案した。
  • 9種のベンチマークで複数モデルのpretrained・instruction-tunedバリアントを検証し、Mistral-Instructでは正誤判別スコア77.49%を記録、学習型分類器の65.56%を上回った(THE DECODER報道)。
  • 学習型分類器は未知のデータセットで精度がほぼランダムまで低下したのに対し、Spilled Energyはゼロトレーニングで安定した汎化性能を示した。
  • 回答トークンに絞った測定で精度が最大24%向上した。ただし非意味的トークンによる誤検知が課題として残る。

測れないものは管理できない——AIの信頼性が「計器」を手に入れる意味

「信じるか、信じないか」から「測るか、測らないか」へ

LLMのハルシネーションをめぐる議論は、長いあいだ二択の中に閉じ込められてきた。「AIを信じるか、信じないか」。信じて使えば効率は上がるが誤りを見逃す。疑って使えば安全だが、検証のコストが生産性の向上を打ち消す。昨日配信したArs Technicaの記事が示したのは、AI専門記者ですらこの二択の中で転んだという事実だ。

Spilled Energyの研究が切り開くのは、この二択の外にある三つ目の選択肢だ。「信じるか信じないか」ではなく「測れるか測れないか」。AIの出力に信頼度の計器をつけるという発想。自動車にスピードメーターがなかった時代、ドライバーは「速すぎるか」を体感で判断していた。計器が付いた瞬間、運転の構造が変わった。LLMの信頼性にも、同じことが起きようとしている。

エネルギーの「帳尻が合わない」という直感的な原理

この手法の核にある着想は、物理学からの借用だ。LLMが次の単語を予測するとき、最終処理層は「各単語がどれだけありそうか」の確率分布を出力する。研究チームはこの確率計算を、エネルギーの収支として読み替えた。正確に予測できているとき、連続する予測ステップ間のエネルギーは理論上一致する——同じ量を、2つの異なる視点から見ているだけだからだ。ところが、モデルが誤った回答を生成しているとき、このエネルギーに「漏れ」が生じる。帳簿の数字が合わない企業の会計のように、計算の中に不整合が残る。

技術的には、これはモデルが各単語に割り振る生のスコアだけから計算できる。追加の学習データも、外部のファクトチェックデータベースも要らない。モデル自身の計算過程を「監査」するだけで、誤りの痕跡が検出できる。Adrian Robert Minut、Hazem Dewidar、Iacopo Masiの3名による論文はICLR 2026で発表されたと報じられており(THE DECODER)、コードもGitHub上で公開されている(arXiv: 2602.18671)。

学習型分類器の「脆さ」を浮き彫りにした実験結果

数字を正確に読む。Mistral-Instructモデルでの正誤判別スコアは77.49%。このスコアは誤りと正解をどれだけ正しく見分けられるかを示す指標で、完全な判別が100%、当てずっぽうが50%だ。比較対象の学習型分類器は65.56%、信頼度ベースの手法は63.44%だった。

だが、この数字の差よりも重要なのは「汎化性能」の差だ。学習型分類器は、訓練に使ったデータセットでは高い精度を出す。しかし未知のデータセット——訓練時に見たことのない種類の質問——に適用すると、精度がほぼランダム(50%前後)まで落ちた。事前に想定したパターンの外に出ると機能しなくなる。Spilled Energyは学習を一切行わないため、この問題が構造的に起きない。TriviaQA、HotpotQA、数学問題、映画レビューの感情分析、13桁の合成計算——タスクの種類を問わず安定して動く。

もう一つ注目すべき発見がある。回答トークンの特定だ。「イタリアの首都は?」に対して「ローマ」と答えたとき、検出精度に影響するのは「ローマ」のトークンだけであり、周辺の「イタリアの首都は」といった文脈トークンは逆にノイズになる。この「答えの部分だけを見る」というフィルタリングによって、精度が最大24%向上した。逆に言えば、どのトークンが「回答」かを正しく特定できなければ、検出精度は大きく落ちる。

「検出できる」と「防げる」のあいだにある溝

ここで冷静になる必要がある。Spilled Energyはハルシネーションを「検出」する。「防止」はしない。LLMがなぜ事実と異なる出力を生成するのか、その根本的なメカニズムには手をつけていない。

この区別は重要だ。製造業に例えれば、不良品を出荷前に発見する検査装置はできた。しかし不良品を生まない製造プロセスが実現したわけではない。検査装置があれば安心、とはならない。正誤判別スコア77.49%は、実用水準とされる90%超にはまだ届いていない。医療診断に使えるレベルではない。法的文書のファクトチェックに使うには不十分だ。

また、現時点での検証はLLaMA-3、Mistral、Gemma、Qwen3といったオープンソースモデルに限られている。商用モデル——GPT系やClaude系——は内部の計算スコアを通常APIで全量公開していない。Spilled Energyが理論的に有効でも、最も広く業務利用されているモデルにそのまま適用できるかは別の問題だ。

それでも、この研究が指し示す方向は明確だ。LLMの信頼性を「人間の注意力」や「外部データベースとの照合」に頼るのではなく、モデル自身の計算過程から内部的に監視する。Ars Technicaの事件で露呈した「流暢さが検証を麻痺させる」構造に対し、人間の認知に依存しない検証経路が理論上存在することを示した。この研究が直接的に本番環境を変えるには時間がかかる。だが、問いの枠組みは変わった。「AIの出力をどう検証するか」ではなく「AIの内部計算をどう監査するか」へ。計器の目盛りはまだ粗い。しかし、計器が存在すること自体が、これまでとは異なる設計を可能にする。

考える問い

  • あなたの組織でAIが生成した文書やレポートの正確性は、現在どのような方法で検証されているか。それは個人の注意力に依存しているか、プロセスとして組み込まれているか。
  • AIの出力に「信頼度スコア」が付く時代が来たとき、何%以上なら人間の確認を省略してよいと判断するか。その閾値は誰がどう決めるべきか。
  • ハルシネーションを「防止」できない以上、「検出」の精度がどの水準に達すれば業務利用の判断基準は変わるか——77%で十分か、99%が必要か、それとも100%以外は意味がないか。

報道記事・ソース

公式発表・一次情報

関連ライブラリ

なべ

Author

なべ

techtech.club 編集長。メディアで起業し、元はスタートアップのプロダクトマネージャー。一度テクノロジーに賭けて挫折した。その経験がいまの生き方や考え方、事業の起点になっている。ここで書くのは答えではない。投資・キャリア・事業など専門家でなくても自分の頭で判断するための材料と視点。読者に教えるのではなく、一緒に考える側にいたい。