AIで、一人の限界を超えるメディアプラットフォーム
テストに通るのに使えない——AIが書いたコードの半分は現場で却下される
2026.03.12

テストに通るのに使えない——AIが書いたコードの半分は現場で却下される

テストに通るのに使えない——AIが書いたコードの半分は現場で却下される
John
by ジョン
自ら思考/判断/決断する

ZOO, inc. CEO / 毎日テクノロジーを追い、人間の可能性が拡張できるトピックスを探求している。

AIが書いたコードの品質を比べるとき、業界が頼りにしてきた「物差し」がある。「SWE-bench」と呼ばれるテストだ。実際のソフトウェアに発生したバグを題材に、AIがそれを正しく修正できるかを自動で採点する。各社がこのスコアを競い、企業はその数字を見て導入を判断してきた。だが、そのスコアが現場の品質とどれほどズレているのか——AI評価機関METRの調査が、業界の前提を揺さぶっている。

この記事の要約

30秒でキャッチアップ
事実
AI評価機関METRが、業界標準テスト「SWE-bench」に合格したAI生成コード296件を現役の開発者4名に審査させた結果、テストの合格率と開発者の採用率の間に平均24ポイントの差があることを確認した。
影響
「SWE-benchで○○%達成」という数字を根拠にAIコーディングツールの導入や投資を判断してきた企業にとって、その物差しの信頼性が問われる結果となった。
洞察
「テストに受かる能力」と「実務で使える品質」の間に構造的なギャップが存在することは、AIの実力を測る基準そのものがまだ定まっていないことを示唆している。

テストは「解けたか」を測り、現場は「一緒に働けるか」を見ている

「テストに合格」の意味が現場と違う

まず、この研究が何を調べたのかを整理する。

SWE-benchは、実際のソフトウェアで過去に見つかったバグを使い、「AIがそのバグを正しく修正できるか」を自動で採点するテストだ。採点の仕組みはシンプルで、修正後のコードが既存のテストをすべて通れば「合格」とみなされる。OpenAI、Anthropic、Googleといった企業がこのスコアを競い、「SWE-benchで○○%達成」という数字がプレスリリースに並ぶ。たとえるなら、AIコーディングの「TOEIC」のような存在だ。

METRは、このテストに合格したAIのコードを、実際にそのソフトウェアを日常的に開発している現役エンジニア4名に見せた。出所を伏せた状態で「このコードをプロジェクトに採用するか」を判断してもらった(METR公開レポート)。

結果、テストの合格率と現場エンジニアの採用率には平均24ポイントの差が開いた。テストで「合格」とされたコードのうち、およそ半分は現場のエンジニアに「これは使えない」と判断された。

なぜ「合格」したコードが却下されるのか

テストは「バグが直ったかどうか」を機械的にチェックする。だが現場のエンジニアは、それだけでは判断しない。

却下されたコードを分類すると、3種類の問題が見えてくる(METR公開レポート)。一つ目は「書き方の質」——動くけれど、コードの書き方がプロジェクトのルールに合っていない。二つ目は「副作用」——バグは直ったが、別の機能を壊している。三つ目は「根本的な不備」——テストは通ったが、実は問題の本質を解決していない。

身近な例に置き換えてみる。報告書の誤字を直してほしいと頼んだら、AIが誤字は直したが、文章の意味が変わってしまった。あるいは、誤字は直ったが、フォーマットが社内ルールと違う。さらには、実は誤字ではなく表現自体を修正すべきだったのに、表面的に直しただけだった。テストは「誤字がなくなったか」しか見ない。現場の人間は「この報告書を上に出せるか」を見ている。

「AIにコードを書かせる」判断への影響

この話はエンジニアだけの問題ではない。

いま、多くの企業が「AIにコードを書かせる」判断を行い始めている。その判断を下すのはCTOやエンジニアリングマネージャーだけではなく、経営層やプロジェクトマネージャーの場合もある。そのとき根拠になるのが「SWE-benchで○○%達成」という数字だ。

昨日配信した記事で、AmazonがAI生成コードの本番投入にベテランエンジニアの承認を義務化した動きを取り上げた。AIの使用率80%を目標に掲げた結果、システム障害が連発し、人間による検証が制度化されたという話だ。METRの研究は、Amazonの判断を裏付けるデータを提示している。テストに合格するだけでは、現場で使える品質には届かない。

以前取り上げた記事では、医療AIが試験には合格するのに臨床現場では機能しない構造を扱った。医療からコーディングへ。分野は違うが、構造は同じだ。「テストの点数」と「現場で使える実力」のズレは、AI産業全体に横たわる未解決の課題になりつつある。

物差しが壊れている可能性

この研究で興味深いのは、人間が書いたコードの扱いだ。比較のために、人間が過去に書いた修正コード47件を、同じ条件でエンジニアに審査させた。結果、人間のコードでも採用率は68%にとどまった(METR公開レポート)。つまり、現場のエンジニアが見ているのは「正しく動くか」だけではなく、「将来このコードを別の人が修正するとき困らないか」「プロジェクト全体の設計と整合するか」といった、テストでは測れない判断だ。

METRは、テストのスコアが年間約9.6ポイント改善している一方、現場エンジニアの採用率の改善はそれより遅いペースだと示唆している(METR公開レポート、統計的に10%水準で有意)。AIの性能は上がっている。しかし現場が求める品質との距離は、スコアの伸びほどには縮まっていない可能性がある。

さらに重要な留保がある。この調査ではAIに1回きりの試行しか与えていない。実際の開発では、指摘を受けて修正し、再提出する反復がある。だが、この留保こそがこの研究の核心を際立たせる。現場の仕事が「1回の提出で完結する」ものではないのなら、「1回の試行で何%解けたか」を競うテストは、そもそも仕事の実態と合っていない。測れるものだけを測り、測れないものが現場では価値を決めている——AIの導入を判断する側にとって、テストのスコアは参考にはなっても、根拠にはならない時代に入りつつある。

AIツールの導入や投資を判断するとき、その根拠にしているのはベンダーが公表するテストスコアか、自社環境での実証結果か。
AIが作った成果物を本番で使う前に、どのような品質チェックの仕組みが設計されているか。「テストが通れば十分」という前提は妥当か。
「テストの点数は年々上がっている」のに「現場の採用率が追いつかない」構造は、コーディング以外の分野——たとえばAIによる文章作成やデータ分析——でも起きていないか。
AIの成果物の「質」を測る物差しとして、あなたの組織は何を使っているか。その物差しは、現場の実感と合っているか。
John
筆者ジョンから、あなたへの問い

おすすめの映画・書籍

この記事の内容をより深く、よりリアルに追体験できるおすすめの映画・書籍をピックアップしました。

テクノロジーが社会やあなたに与える影響を深く考えるきっかけにしてください。

マネーボール
映画

マネーボール

2011年
127分
ベネット・ミラー
低予算の弱小MLB球団をデータ分析(セイバーメトリクス)を用いて強豪へと変貌させたGMビリー・ビーンの挑戦を描くドラマ映画
推薦理由
既存の指標(打率や見た目の印象)が本当の価値を測れていなかった構造を描く。「測り方を変えれば、見えるものが変わる」というテーマは、AIの評価基準と現場のズレに通じる。
人月の神話
書籍

人月の神話

2014年
丸善出版
フレデリック・ブルックス
ソフトウェア開発において「1人×10ヶ月=10人×1ヶ月」のような、人数と時間を等価とする「人月」単位の計算は神話(誤り)に過ぎないと説く、プロジェクト管理のバイブル的古典
推薦理由
ソフトウェア開発における「測定できるもの」と「実際に重要なもの」のギャップを50年前に指摘した古典。「便利だが危険な物差し」への警鐘は、AIのテストスコアの過信にそのまま重なる。
John
ジョン

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

関連記事

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている
04.02

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている

このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

最新のトピックス

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない
04.08

「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは
04.04

350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か
04.04

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの
04.03

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの

OpenAI
OpenAI
AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている
04.02

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている

本を読まずに本を禁じるAI——あなたの組織にも同じ構造はないか
04.02

本を読まずに本を禁じるAI——あなたの組織にも同じ構造はないか

この記事の目次

この記事の目次

上部へスクロール