ChatGPTに「この方針で進めていい?」と聞く。「問題ありません」と返ってくる。そのまま進める——この一連の動作に、何秒の思考を挟んだか。

ペンシルベニア大学ウォートンスクールの研究チームが、AIの誤答にも約8割が従う「認知的降伏」を定量化した。問題はAIの精度ではなく、人間の脳の仕組みにある。

事実 何が起きたか

ペンシルベニア大学ウォートンスクールの研究チームが1,372人を対象にした実験で「認知的降伏」を定量化した。AIの正答には92.7%、誤答にも79.8%が従う。

読み解き なぜ重要か

認知的降伏はAIの設計欠陥ではなく、より速いシステムに思考を委ねる人間の認知構造の反映であることを示唆している。

影響 何が変わるか

誤答AIの利用で正答率はベースラインを15ポイント下回ったが、被験者の自信はむしろ上昇した。

おべっかを直しても、降伏は止まらない

「おべっか」と「降伏」は別の回路

先日の記事で、AIのおべっか問題を取り上げた。11モデル全部が人間に迎合する。企業にはそれを止めるインセンティブがない。供給側の構造問題だった。

ウォートンの研究が示しているのは、もう一方の回路になる。実験でAIは被験者を褒めていない。論理問題の答えを提示しただけ。それでも79.8%が、間違った答えにそのまま従った。

おべっかがなくても、降伏は起きる。

この区別は見落とされがちだが、重要だと考えている。仮に11モデルすべてがおべっかをやめたとしても——AIが耳に心地よい答えを返すのを完全にやめたとしても——認知的降伏は止まらない可能性がある。問題の所在がAIの出力ではなく、人間の認知の仕組みにあるからだ。

カーネマンのシステムに、3つ目が加わった

研究チームのSteven Shaw氏(博士研究員)とGideon Nave氏(マーケティング学准教授)は「三重システム理論(Tri-System Theory)」を提唱している。ダニエル・カーネマンが『ファスト&スロー』で世に広めた二重プロセス——直感の「システム1」と熟考の「システム2」。ここに脳の外にある「システム3」、つまり人工的な認知が接続されるという枠組みになる。

以前から「認知オフロード」——電卓やカーナビのように特定の作業をツールに委ねること——は存在していた。Nave氏はその違いをこう説明している。カーナビが「この道を行け」と言ったとき、「いや、こっちが早い」と判断できるなら、それはオフロード。認知的降伏では、その「いや」が起動しない。AIの出力がそのまま自分の出力になる。検証するステップ自体が消える。

正直、この理論的枠組みがどこまで堅いのか、自分には判断がつかない。SSRN(学術論文の事前公開プラットフォーム)に掲載されたプレプリントであり、まだ査読を経ていない。1,372人・9,593試行の規模と事前登録された3つの実験という設計は堅実に見えるが、「システム3」が認知科学のフレームワークとして定着するかは別の話になる。

ただ、データが示す現象——AIが間違えても8割が従う——は、理論の正否とは独立して成立している。

自信だけが膨れる

個人的に最も引っかかった数字がある。

AIの正答に従った場合、成績は25ポイント向上する。当然の話だ。AIの誤答に従った場合、15ポイント低下する。AIなしより悪くなる。ここまでは直感どおり。

問題は次。誤答AIを使った被験者の自信は、下がるのではなく上がっていた。

研究チームの解釈では、被験者はAIの正確さではなく、AIの存在そのものから自信を借りている。ChatGPTの回答は常に自信に満ちたトーンで書かれている。その確信が、正誤を問わずユーザーに転写される。

プロダクト設計の目で見ると、これは深刻なUXの欠陥になる。ユーザーの主観的体験(自信が上がる、良い判断をしている感覚がある)と客観的パフォーマンス(判断の質が落ちている)が食い違っている。しかもユーザーはその食い違いに気づけない。先日の記事で触れた「判断力を蝕むAIがユーザーから最も好まれる」という逆説の、認知メカニズム側の説明がここにある。

組織が測っていないもの

全員が同じように降伏するわけではない。AIへの信頼が高い人は、誤ったアドバイスに従う確率が3.5倍。「考えること自体を楽しまない」傾向の人——研究では「認知欲求(need for cognition)が低い」と表現される——や、新しい問題を解く力(流動性知能)が低い人ほど降伏しやすい。

裏を返せば、考えることに抵抗がない人は降伏しにくい。「思考は筋力」という比喩がときどき使われるが、このデータはそれを裏づけている。使っている筋力は衰えにくい。

この知見を組織の文脈に置くと、少し怖い景色が見える。AIアシスタントの導入効果を測るとき、企業が見る指標は処理速度、生産性、ユーザー満足度。「従業員の判断力がどう変化したか」を測定している組織を、少なくとも自分は知らない。

先日のおべっか記事で、「測定されないものは最適化されない」構造を指摘した。AI企業がおべっかを放置するのは、判断力の劣化がKPIに含まれないから。同じ構造が、AIを導入する側の企業にもそのまま当てはまる。

AIを使うほど考えなくなる。考えないほどAIに頼る。頼るほど自信が上がる。自信が上がるほど疑わなくなる。

このループの厄介なところは、ループの中にいる本人にとって、すべてが順調に見えること。

考える問い

  • 自分がAIの回答をそのまま採用した直近の場面を思い出せるか。そのとき、検証のステップを挟んだか。
  • あなたの組織がAIツールを導入するとき、「従業員の判断力の変化」は測定項目に含まれているか。
  • AIを使ったあとに自信が上がる感覚に覚えがあるなら、その自信の根拠は自分の思考か、AIの出力か。
  • 「考えることを楽しむ人」ほど降伏しにくいという知見を、採用や人材育成にどう活かせるか。
  • AIの回答に「それは違う」と言い返せるのは、どんな条件が揃ったときか。

報道記事・ソース

公式発表・一次情報

関連ライブラリ

ジョン

Author

ジョン

techtech.club 編集長。メディアで起業し、元はスタートアップのプロダクトマネージャー。一度テクノロジーに賭けて挫折した。その経験がいまの生き方や考え方、事業の起点になっている。ここで書くのは答えではない。投資・キャリア・事業など専門家でなくても自分の頭で判断するための材料と視点。読者に教えるのではなく、一緒に考える側にいたい。