AIで、一人の限界を超えるメディアプラットフォーム
テストに通るのに使えない——AIが書いたコードの半分は現場で却下される
2026.03.12

テストに通るのに使えない——AIが書いたコードの半分は現場で却下される

テストに通るのに使えない——AIが書いたコードの半分は現場で却下される

AIが書いたコードの品質を比べるとき、業界が頼りにしてきた「物差し」がある。「SWE-bench」と呼ばれるテストだ。実際のソフトウェアに発生したバグを題材に、AIがそれを正しく修正できるかを自動で採点する。各社がこのスコアを競い、企業はその数字を見て導入を判断してきた。だが、そのスコアが現場の品質とどれほどズレているのか——AI評価機関METRの調査が、業界の前提を揺さぶっている。

Executive Brief

30 SEC READ
FACT
AI評価機関METRが、業界標準テスト「SWE-bench」に合格したAI生成コード296件を現役の開発者4名に審査させた結果、テストの合格率と開発者の採用率の間に平均24ポイントの差があることを確認した。
IMPACT
「SWE-benchで○○%達成」という数字を根拠にAIコーディングツールの導入や投資を判断してきた企業にとって、その物差しの信頼性が問われる結果となった。
INSIGHT
「テストに受かる能力」と「実務で使える品質」の間に構造的なギャップが存在することは、AIの実力を測る基準そのものがまだ定まっていないことを示唆している。

Contents ——公式発表・一次情報

Summary ——何が起きている?

  • 調査対象は3つのソフトウェアプロジェクトで、5つのAIモデルが書いたコードを開発者が審査した。
  • 却下の理由は「書き方の質が低い」「別の機能を壊す」「そもそも問題が解決されていない」の3種類に大別された。
  • 比較のため人間が書いたコード47件も同条件で審査し、開発者の採用率は68%だった。
  • 研究チームは「やり直しの機会がない1回限りの条件」が結果に影響した可能性を認めている。

Perspective ——TECHTECH.の視点

● テストは「解けたか」を測り、現場は「一緒に働けるか」を見ている

「テストに合格」の意味が現場と違う

まず、この研究が何を調べたのかを整理する。

SWE-benchは、実際のソフトウェアで過去に見つかったバグを使い、「AIがそのバグを正しく修正できるか」を自動で採点するテストだ。採点の仕組みはシンプルで、修正後のコードが既存のテストをすべて通れば「合格」とみなされる。OpenAI、Anthropic、Googleといった企業がこのスコアを競い、「SWE-benchで○○%達成」という数字がプレスリリースに並ぶ。たとえるなら、AIコーディングの「TOEIC」のような存在だ。

METRは、このテストに合格したAIのコードを、実際にそのソフトウェアを日常的に開発している現役エンジニア4名に見せた。出所を伏せた状態で「このコードをプロジェクトに採用するか」を判断してもらった(METR公開レポート)。

結果、テストの合格率と現場エンジニアの採用率には平均24ポイントの差が開いた。テストで「合格」とされたコードのうち、およそ半分は現場のエンジニアに「これは使えない」と判断された。

なぜ「合格」したコードが却下されるのか

テストは「バグが直ったかどうか」を機械的にチェックする。だが現場のエンジニアは、それだけでは判断しない。

却下されたコードを分類すると、3種類の問題が見えてくる(METR公開レポート)。一つ目は「書き方の質」——動くけれど、コードの書き方がプロジェクトのルールに合っていない。二つ目は「副作用」——バグは直ったが、別の機能を壊している。三つ目は「根本的な不備」——テストは通ったが、実は問題の本質を解決していない。

身近な例に置き換えてみる。報告書の誤字を直してほしいと頼んだら、AIが誤字は直したが、文章の意味が変わってしまった。あるいは、誤字は直ったが、フォーマットが社内ルールと違う。さらには、実は誤字ではなく表現自体を修正すべきだったのに、表面的に直しただけだった。テストは「誤字がなくなったか」しか見ない。現場の人間は「この報告書を上に出せるか」を見ている。

「AIにコードを書かせる」判断への影響

この話はエンジニアだけの問題ではない。

いま、多くの企業が「AIにコードを書かせる」判断を行い始めている。その判断を下すのはCTOやエンジニアリングマネージャーだけではなく、経営層やプロジェクトマネージャーの場合もある。そのとき根拠になるのが「SWE-benchで○○%達成」という数字だ。

昨日配信した記事で、AmazonがAI生成コードの本番投入にベテランエンジニアの承認を義務化した動きを取り上げた。AIの使用率80%を目標に掲げた結果、システム障害が連発し、人間による検証が制度化されたという話だ。METRの研究は、Amazonの判断を裏付けるデータを提示している。テストに合格するだけでは、現場で使える品質には届かない。

以前取り上げた記事では、医療AIが試験には合格するのに臨床現場では機能しない構造を扱った。医療からコーディングへ。分野は違うが、構造は同じだ。「テストの点数」と「現場で使える実力」のズレは、AI産業全体に横たわる未解決の課題になりつつある。

物差しが壊れている可能性

この研究で興味深いのは、人間が書いたコードの扱いだ。比較のために、人間が過去に書いた修正コード47件を、同じ条件でエンジニアに審査させた。結果、人間のコードでも採用率は68%にとどまった(METR公開レポート)。つまり、現場のエンジニアが見ているのは「正しく動くか」だけではなく、「将来このコードを別の人が修正するとき困らないか」「プロジェクト全体の設計と整合するか」といった、テストでは測れない判断だ。

METRは、テストのスコアが年間約9.6ポイント改善している一方、現場エンジニアの採用率の改善はそれより遅いペースだと示唆している(METR公開レポート、統計的に10%水準で有意)。AIの性能は上がっている。しかし現場が求める品質との距離は、スコアの伸びほどには縮まっていない可能性がある。

さらに重要な留保がある。この調査ではAIに1回きりの試行しか与えていない。実際の開発では、指摘を受けて修正し、再提出する反復がある。だが、この留保こそがこの研究の核心を際立たせる。現場の仕事が「1回の提出で完結する」ものではないのなら、「1回の試行で何%解けたか」を競うテストは、そもそも仕事の実態と合っていない。測れるものだけを測り、測れないものが現場では価値を決めている——AIの導入を判断する側にとって、テストのスコアは参考にはなっても、根拠にはならない時代に入りつつある。

AIツールの導入や投資を判断するとき、その根拠にしているのはベンダーが公表するテストスコアか、自社環境での実証結果か。
AIが作った成果物を本番で使う前に、どのような品質チェックの仕組みが設計されているか。「テストが通れば十分」という前提は妥当か。
「テストの点数は年々上がっている」のに「現場の採用率が追いつかない」構造は、コーディング以外の分野——たとえばAIによる文章作成やデータ分析——でも起きていないか。
AIの成果物の「質」を測る物差しとして、あなたの組織は何を使っているか。その物差しは、現場の実感と合っているか。
John
Thought by John
このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

Drill Down ——もっと掘り下げる

マネーボール
映画

マネーボール

2011年
127分
ベネット・ミラー
低予算の弱小MLB球団をデータ分析(セイバーメトリクス)を用いて強豪へと変貌させたGMビリー・ビーンの挑戦を描くドラマ映画
推薦理由
既存の指標(打率や見た目の印象)が本当の価値を測れていなかった構造を描く。「測り方を変えれば、見えるものが変わる」というテーマは、AIの評価基準と現場のズレに通じる。
人月の神話
書籍

人月の神話

2014年
丸善出版
フレデリック・ブルックス
ソフトウェア開発において「1人×10ヶ月=10人×1ヶ月」のような、人数と時間を等価とする「人月」単位の計算は神話(誤り)に過ぎないと説く、プロジェクト管理のバイブル的古典
推薦理由
ソフトウェア開発における「測定できるもの」と「実際に重要なもの」のギャップを50年前に指摘した古典。「便利だが危険な物差し」への警鐘は、AIのテストスコアの過信にそのまま重なる。

Context Timeline ——報道記事

2026.03.12 02:49
the-decoder.com
Half of AI-written code that passes industry test would get rejected by real developers, new study finds
2026.02.19 13:48
simonwillison.net
SWE-bench February 2026 leaderboard update
2026.02.04 20:19
arxiv.org
What's in a Benchmark? The Case of SWE-Bench in Automated Program Repair
John
John

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

LATEST UPDATES

最先端AIプラットフォームが2時間陥落 ――攻撃に使われたのは数十年前の手法だった
03.12

最先端AIプラットフォームが2時間陥落 ――攻撃に使われたのは数十年前の手法だった

Atlassianが1,600人を削減した理由——人件費をAI投資に振り替える構造が定着しつつある
03.12

Atlassianが1,600人を削減した理由——人件費をAI投資に振り替える構造が定着しつつある

Claudeが2週間でFirefoxの脆弱性22件を発見した——「見つける力」と「悪用する力」の非対称性
03.11

Claudeが2週間でFirefoxの脆弱性22件を発見した——「見つける力」と「悪用する力」の非対称性

Firefox
Firefox
Claude
Claude
Amazonが「AIコードの承認制」を導入か——80%使用目標が辿り着いた逆説
03.11

Amazonが「AIコードの承認制」を導入か——80%使用目標が辿り着いた逆説

Amazon
Amazon
AIの出力を「信じるしかない」時代は終わるのか——エネルギーの漏れが嘘を暴く
03.08

AIの出力を「信じるしかない」時代は終わるのか——エネルギーの漏れが嘘を暴く

AI専門記者がAIに騙された——Ars Technica捏造引用事件が暴く「検証なき効率化」の構造
03.07

AI専門記者がAIに騙された——Ars Technica捏造引用事件が暴く「検証なき効率化」の構造

AIはIT職の業務の94%を加速できる——だが実際に使われているのは33%だった
03.07

AIはIT職の業務の94%を加速できる——だが実際に使われているのは33%だった

Anthropic
Anthropic
AIは仕事を楽にしたか——ハイパフォーマーほど「脳が焼ける」という1,500人調査の研究結果
03.07

AIは仕事を楽にしたか——ハイパフォーマーほど「脳が焼ける」という1,500人調査の研究結果

Index

Index

上部へスクロール