AIチャットボットは医師国家試験に合格できる。しかし、患者を正しく導けるかは別の問題だ。

オックスフォード大学の研究チームが1,298人を対象に実施した無作為化比較試験が、AIと人間の「協働」における根本的な課題を明らかにした。

OpenAIがChatGPT Healthを発表し、医療分野へのAI進出が加速する今、この研究結果は重い問いを投げかける。

事実 何が起きたか

LLMは単独で医療シナリオの94.9%を正確に診断できるが、一般ユーザーと組み合わせると正答率は34.5%以下に低下した

読み解き なぜ重要か

これはAIの「知識」の問題ではなく、人間との「対話」の問題である——医療AIの実用化には、ベンチマークを超えた新たな評価基準が必要になる

影響 何が変わるか

AI医療アシスタントの安全性評価において、既存のベンチマークや模擬テストでは実世界の失敗を予測できないことが判明した

Overview

  • オックスフォード大学の研究チームが、GPT-4o、Llama 3、Command R+を使用した1,298人の被験者による無作為化比較試験を実施した
  • LLM単独では医療シナリオの正答率が94.9%だったが、人間ユーザーと組み合わせると34.5%以下に低下し、インターネット検索などの従来手法と同等かそれ以下の成績となった
  • 同じ、くも膜下出血の症状を訴えた2人のユーザーに対し、AIは一方に「暗い部屋で横になれ」、もう一方に「緊急医療を受けろ」と真逆の助言を与えた
  • 研究者らは「現行のLLMは患者への直接的な医療助言には対応できない」と結論づけ、実際のユーザーによるテストを安全性評価の基盤とすることを推奨した

※無作為化比較試験:新薬や治療法の効果を公平に確かめるため、参加者をランダム(無作為)に「新しい治療をするグループ」と「従来の治療(または偽薬)をするグループ」に分け、結果を比較する研究方法

この研究が明らかにしたのは、AIの「無能さ」ではない。問題はむしろ逆だ。AIは答えを知っている。しかし、その答えを人間に届ける過程で何かが壊れる。

ユーザーは必要な情報をAIに伝えない。AIは正しい選択肢を提示しても、ユーザーはそれを選べない。同じ症状に対して真逆のアドバイスが出ることさえある。

ここに浮かび上がるのは、「知識」と「対話」の間にある深い溝だ。医師が患者から情報を引き出し、適切な判断へと導くスキルは、数十年の訓練と経験によって培われる。それをベンチマークの数値で代替できると考えたこと自体が、技術楽観主義の盲点だった。

OpenAIがChatGPT Healthを発表し、6億人以上のユーザーに「健康情報」を届けようとしている今、この研究は警鐘ではなく、設計思想の転換を迫る根拠となる。

考える問い

  • 「医師国家試験に合格できるAI」という表現は、私たちにどのような期待を抱かせ、どのような現実を覆い隠してきたか
  • AIに健康相談をする人が増え続ける中、「使い方が悪い」とユーザーを責めることは適切か

報道記事・ソース

公式発表・一次情報

Nature Medicine 掲載論文:Reliability of LLMs as medical assistants for the general public: a randomized preregistered study

なべ

Author

なべ

techtech.club 編集長。メディアで起業し、元はスタートアップのプロダクトマネージャー。一度テクノロジーに賭けて挫折した。その経験がいまの生き方や考え方、事業の起点になっている。ここで書くのは答えではない。投資・キャリア・事業など専門家でなくても自分の頭で判断するための材料と視点。読者に教えるのではなく、一緒に考える側にいたい。