OpenAIがGPT-5.4を発表した。推論、コーディング、PC操作を1つのモデルに統合した初めてのフロンティアモデルだ。注目すべきはベンチマークの数字ではない。デスクトップ操作の精度テストで、このモデルが人間のスコアを初めて上回ったという事実だ。AIは「指示を受けて答えを返す道具」から「画面を見て自分で操作する存在」に変わりつつある。

事実 何が起きたか

OpenAIはGPT-5.4を発表し、PC画面操作の精度テストで75.0%を記録、人間のスコア72.4%を初めて上回った。

読み解き なぜ重要か

ベンチマーク上の逆転は、AIの役割が「ツール」から「オペレーター」に移行する転換点を示唆しており、ナレッジワークの定義そのものに影響する。

影響 何が変わるか

推論・コーディング・PC操作の統合により、AIが「指示を受けて回答する」モデルから「自分で画面を操作してタスクを完了する」モデルに転換した。

Overview

  • OpenAIがGPT-5.4を発表。推論・コーディング・PC操作を1つに統合した初のモデル(OpenAI公式)。
  • PC操作テストで75.0%を記録。人間の72.4%を初めて上回った(THE DECODER報道)。
  • 44職種の業務タスク(レポート、プレゼン、財務モデル等)を人間と比較するテストで83.0%の勝率を達成(OpenAI公式)。
  • 事実誤認が前世代比33%減少。一度に処理できるテキスト量は100万トークン(約75万語相当)に拡大。

マニュアルを作る時代が終わり、マニュアルを実行させる時代が来た

75.0% vs 72.4%——数字が意味する転換

GPT-5.4の発表で最も報じられているのは、推論・コーディング・PC操作の「統合」だ。確かにそれは技術的な到達点だが、数字の意味はもう少し具体的に読める。

OSWorld Verifiedというテストがある。AIにデスクトップ環境を渡し、「このファイルをコピーして」「このウェブフォームに入力して」「アプリの設定を変更して」といった日常的なPC操作を指示し、完遂できるかを測る。GPT-5.4はここで75.0%を記録した。人間の基準スコアは72.4%。前世代のGPT-5.2は47.3%だった。一世代で28ポイント上がり、人間を超えた。

この数字だけを見れば「AIが人間より上手にパソコンを使えるようになった」という話に聞こえる。だが、ベンチマーク環境と実務環境の距離は常に意識すべきだ。OSWorldは管理された仮想デスクトップ上のタスクであり、実際のオフィス環境——複数アプリの同時起動、予期しないポップアップ、ネットワーク遅延、文脈依存の判断——とは条件が異なる。それでも、この数字が示すのは方向性だ。AIが「テキストで答えを返す」存在から「画面を見て操作する」存在に変わりつつあるという方向性。

「道具を使う側」が「道具にされる側」になる構造

他メディアの論調を見ると、GPT-5.4の報道は「より賢くなった」「エージェント時代の到来」という切り口が中心だ。だが、この変化の本質は性能ではなく構造にある。

これまでのAIモデルは、人間が指示を出し、AIが回答を返すという一方向のインターフェースだった。人間がプロンプトを書き、AIがテキストや画像を生成する。人間はAIの出力を受け取り、自分で判断し、自分で実行する。AIは「道具」であり、操作する主体は常に人間だった。

GPT-5.4のPC操作モードは、この構造を反転させる。AIがスプレッドシートを開き、セルに数値を入力し、グラフを生成し、ファイルを保存する。ブラウザを操作し、ウェブサイトを巡回し、フォームに入力する。人間がやっていたことを、AIが画面上で直接実行する。人間の役割は「操作する側」から「操作を監督する側」に移る。

別のテストでは、投資銀行のジュニアアナリストが行うようなスプレッドシートのモデリング作業——財務モデルの構築や数値分析——をAIに解かせた。GPT-5.4は87.3%の正答率を記録した。前世代の68.4%から19ポイントの向上だ(OpenAI公式)。ExcelやGoogle Sheetsへの財務プラグインも同時に発表された(VentureBeat報道)。これは「スプレッドシートの使い方を教えてくれるAI」ではなく、「スプレッドシートを自分で操作するAI」だ。

マニュアルを作る仕事と、マニュアルを実行する仕事

昨日、techtech.clubでは「画面録画をAIに渡してマニュアルを自動生成する」手法を取り上げた。画面操作を録画し、AIに渡すと、タイムスタンプ付きの業務マニュアルが自動で生成される。属人化した業務を誰でも再現可能にする手法として紹介した。

GPT-5.4の発表は、あの記事の一歩先を示している。AIがマニュアルを作るだけでなく、マニュアルに書かれた操作をAI自身が実行できるようになった。昨日は「人間の操作を記録してドキュメント化する」話だった。今日は「ドキュメント化された操作をAIが代行する」話だ。

この変化の意味を考えると、マニュアル化できる業務——つまり手順が明確で、判断の余地が少なく、繰り返し実行される業務——は、AIの操作対象になる。マニュアル化できない業務——文脈依存の判断、関係者間の調整、前例のない問題への対応——は、引き続き人間の領域に残る。ナレッジワーカーの仕事の定義が「PCを操作すること」から「何をPCに操作させるかを決めること」に移行する。

ベンチマークの先にある不確定性

だが、ここで立ち止まる必要がある。OSWorldのスコアが人間を上回ったことと、実務でAIにPC操作を任せられることの間には、まだ距離がある。75%の成功率は、4回に1回は失敗することを意味する。管理された環境での75%が、実務環境で何%になるかは未知数だ。

GPT-5.4は事実誤認を前世代比33%削減したとOpenAIは発表している。だが「33%減った」は「なくなった」ではない。AIが自律的にスプレッドシートを操作するとき、1つのセルの入力ミスが財務報告書全体を狂わせる可能性がある。テキスト生成の誤りは人間が読んで修正できる。だがPC操作の誤りは、操作が完了してから初めて発覚することがある。監督のコストが「指示を書くコスト」より低いかどうかは、まだ実証されていない。

方向は明確だ。AIは「答えを返す道具」から「タスクを実行する主体」に向かっている。だが、その移行のどこに自分がいるのか——何をAIに渡し、何を自分で握るのか——の判断は、ベンチマークの数字では教えてくれない。

「何をすべきか」を考える時間は、もはやAIの方が早い。残る問いは「何をさせるか」を決める側にいるか、決められた通りに動く側に回るかだ。その分岐点は、思ったより近い。

考える問い

  • あなたの業務のうち、「マニュアル化できる操作」はどれだけの時間を占めているか。それをAIに渡したとき、残る仕事の価値をどう定義するか。
  • AIがスプレッドシートを自分で操作する世界で、「Excelが使えます」というスキルの市場価値はどう変化するか。
  • 「AIの操作を監督する」コストと「自分で操作する」コスト、どちらが低いかをどう測定するか。その計算は業務の種類によってどう変わるか。

報道記事・ソース

公式発表・一次情報

関連ライブラリ

なべ

Author

なべ

techtech.club 編集長。メディアで起業し、元はスタートアップのプロダクトマネージャー。一度テクノロジーに賭けて挫折した。その経験がいまの生き方や考え方、事業の起点になっている。ここで書くのは答えではない。投資・キャリア・事業など専門家でなくても自分の頭で判断するための材料と視点。読者に教えるのではなく、一緒に考える側にいたい。