AIは試験に受かるが、医師にはなれない——ベンチマークと現実の断絶

AIチャットボットは医師国家試験に合格できる。しかし、患者を正しく導けるかは別の問題だ。

オックスフォード大学の研究チームが1,298人を対象に実施した無作為化比較試験が、AIと人間の「協働」における根本的な課題を明らかにした。

OpenAIがChatGPT Healthを発表し、医療分野へのAI進出が加速する今、この研究結果は重い問いを投げかける。

事実何が起きたか

LLMは単独で医療シナリオの94.9%を正確に診断できるが、一般ユーザーと組み合わせると正答率は34.5%以下に低下した

読み解きなぜ重要か

これはAIの「知識」の問題ではなく、人間との「対話」の問題である——医療AIの実用化には、ベンチマークを超えた新たな評価基準が必要になる

影響何が変わるか

AI医療アシスタントの安全性評価において、既存のベンチマークや模擬テストでは実世界の失敗を予測できないことが判明した

Overview

オックスフォード大学の研究チームが、GPT-4o、Llama 3、Command R+を使用した1,298人の被験者による無作為化比較試験を実施した
LLM単独では医療シナリオの正答率が94.9%だったが、人間ユーザーと組み合わせると34.5%以下に低下し、インターネット検索などの従来手法と同等かそれ以下の成績となった
同じ、くも膜下出血の症状を訴えた2人のユーザーに対し、AIは一方に「暗い部屋で横になれ」、もう一方に「緊急医療を受けろ」と真逆の助言を与えた
研究者らは「現行のLLMは患者への直接的な医療助言には対応できない」と結論づけ、実際のユーザーによるテストを安全性評価の基盤とすることを推奨した

※無作為化比較試験：新薬や治療法の効果を公平に確かめるため、参加者をランダム（無作為）に「新しい治療をするグループ」と「従来の治療（または偽薬）をするグループ」に分け、結果を比較する研究方法

この研究が明らかにしたのは、AIの「無能さ」ではない。問題はむしろ逆だ。AIは答えを知っている。しかし、その答えを人間に届ける過程で何かが壊れる。

ユーザーは必要な情報をAIに伝えない。AIは正しい選択肢を提示しても、ユーザーはそれを選べない。同じ症状に対して真逆のアドバイスが出ることさえある。

ここに浮かび上がるのは、「知識」と「対話」の間にある深い溝だ。医師が患者から情報を引き出し、適切な判断へと導くスキルは、数十年の訓練と経験によって培われる。それをベンチマークの数値で代替できると考えたこと自体が、技術楽観主義の盲点だった。

OpenAIがChatGPT Healthを発表し、6億人以上のユーザーに「健康情報」を届けようとしている今、この研究は警鐘ではなく、設計思想の転換を迫る根拠となる。

考える問い

「医師国家試験に合格できるAI」という表現は、私たちにどのような期待を抱かせ、どのような現実を覆い隠してきたか
AIに健康相談をする人が増え続ける中、「使い方が悪い」とユーザーを責めることは適切か

報道記事・ソース

チャットボットはひどい医師を生み出す、新たな研究で判明404media.co / 2026.02.10
AIチャットボットは医療アドバイスにおいて検索エンジンよりも劣っているcomputerworld.com / 2026.02.11

公式発表・一次情報

Nature Medicine 掲載論文：Reliability of LLMs as medical assistants for the general public: a randomized preregistered study

Author

なべ

techtech.club 編集長。メディアで起業し、元はスタートアップのプロダクトマネージャー。一度テクノロジーに賭けて挫折した。その経験がいまの生き方や考え方、事業の起点になっている。ここで書くのは答えではない。投資・キャリア・事業など専門家でなくても自分の頭で判断するための材料と視点。読者に教えるのではなく、一緒に考える側にいたい。