2026.02.10
AIは試験に受かるが、医師にはなれない——ベンチマークと現実の断絶

AIチャットボットは医師国家試験に合格できる。しかし、患者を正しく導けるかは別の問題だ。
オックスフォード大学の研究チームが1,298人を対象に実施した無作為化比較試験が、AIと人間の「協働」における根本的な課題を明らかにした。
OpenAIがChatGPT Healthを発表し、医療分野へのAI進出が加速する今、この研究結果は重い問いを投げかける。
Executive Brief
30 SEC READ
FACT
LLMは単独で医療シナリオの94.9%を正確に診断できるが、一般ユーザーと組み合わせると正答率は34.5%以下に低下した
IMPACT
AI医療アシスタントの安全性評価において、既存のベンチマークや模擬テストでは実世界の失敗を予測できないことが判明した
INSIGHT
これはAIの「知識」の問題ではなく、人間との「対話」の問題である——医療AIの実用化には、ベンチマークを超えた新たな評価基準が必要になる
Contents ——公式発表・一次情報
Summary ——何が起きている?
- オックスフォード大学の研究チームが、GPT-4o、Llama 3、Command R+を使用した1,298人の被験者による無作為化比較試験を実施した
- LLM単独では医療シナリオの正答率が94.9%だったが、人間ユーザーと組み合わせると34.5%以下に低下し、インターネット検索などの従来手法と同等かそれ以下の成績となった
- 同じ、くも膜下出血の症状を訴えた2人のユーザーに対し、AIは一方に「暗い部屋で横になれ」、もう一方に「緊急医療を受けろ」と真逆の助言を与えた
- 研究者らは「現行のLLMは患者への直接的な医療助言には対応できない」と結論づけ、実際のユーザーによるテストを安全性評価の基盤とすることを推奨した
※無作為化比較試験:新薬や治療法の効果を公平に確かめるため、参加者をランダム(無作為)に「新しい治療をするグループ」と「従来の治療(または偽薬)をするグループ」に分け、結果を比較する研究方法
Perspective ——TECHTECH.の視点
この研究が明らかにしたのは、AIの「無能さ」ではない。問題はむしろ逆だ。AIは答えを知っている。しかし、その答えを人間に届ける過程で何かが壊れる。
ユーザーは必要な情報をAIに伝えない。AIは正しい選択肢を提示しても、ユーザーはそれを選べない。同じ症状に対して真逆のアドバイスが出ることさえある。
ここに浮かび上がるのは、「知識」と「対話」の間にある深い溝だ。医師が患者から情報を引き出し、適切な判断へと導くスキルは、数十年の訓練と経験によって培われる。それをベンチマークの数値で代替できると考えたこと自体が、技術楽観主義の盲点だった。
OpenAIがChatGPT Healthを発表し、6億人以上のユーザーに「健康情報」を届けようとしている今、この研究は警鐘ではなく、設計思想の転換を迫る根拠となる。
「医師国家試験に合格できるAI」という表現は、私たちにどのような期待を抱かせ、どのような現実を覆い隠してきたか
AIに健康相談をする人が増え続ける中、「使い方が悪い」とユーザーを責めることは適切か

Thought by John
Context Timeline ——報道記事
足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。











