マニュアルを作る側から、マニュアルを実行する側へ——GPT-5.4は何を変えたのか

OpenAIがGPT-5.4を発表した。推論、コーディング、PC操作を1つのモデルに統合した初めてのフロンティアモデルだ。注目すべきはベンチマークの数字ではない。デスクトップ操作の精度テストで、このモデルが人間のスコアを初めて上回ったという事実だ。AIは「指示を受けて答えを返す道具」から「画面を見て自分で操作する存在」に変わりつつある。
Executive Brief
Contents ——公式発表・一次情報
Summary ——何が起きている?
- OpenAIがGPT-5.4を発表。推論・コーディング・PC操作を1つに統合した初のモデル(OpenAI公式)。
- PC操作テストで75.0%を記録。人間の72.4%を初めて上回った(THE DECODER報道)。
- 44職種の業務タスク(レポート、プレゼン、財務モデル等)を人間と比較するテストで83.0%の勝率を達成(OpenAI公式)。
- 事実誤認が前世代比33%減少。一度に処理できるテキスト量は100万トークン(約75万語相当)に拡大。
Perspective ——TECHTECH.の視点
75.0% vs 72.4%——数字が意味する転換
GPT-5.4の発表で最も報じられているのは、推論・コーディング・PC操作の「統合」だ。確かにそれは技術的な到達点だが、数字の意味はもう少し具体的に読める。
OSWorld Verifiedというテストがある。AIにデスクトップ環境を渡し、「このファイルをコピーして」「このウェブフォームに入力して」「アプリの設定を変更して」といった日常的なPC操作を指示し、完遂できるかを測る。GPT-5.4はここで75.0%を記録した。人間の基準スコアは72.4%。前世代のGPT-5.2は47.3%だった。一世代で28ポイント上がり、人間を超えた。
この数字だけを見れば「AIが人間より上手にパソコンを使えるようになった」という話に聞こえる。だが、ベンチマーク環境と実務環境の距離は常に意識すべきだ。OSWorldは管理された仮想デスクトップ上のタスクであり、実際のオフィス環境——複数アプリの同時起動、予期しないポップアップ、ネットワーク遅延、文脈依存の判断——とは条件が異なる。それでも、この数字が示すのは方向性だ。AIが「テキストで答えを返す」存在から「画面を見て操作する」存在に変わりつつあるという方向性。
「道具を使う側」が「道具にされる側」になる構造
他メディアの論調を見ると、GPT-5.4の報道は「より賢くなった」「エージェント時代の到来」という切り口が中心だ。だが、この変化の本質は性能ではなく構造にある。
これまでのAIモデルは、人間が指示を出し、AIが回答を返すという一方向のインターフェースだった。人間がプロンプトを書き、AIがテキストや画像を生成する。人間はAIの出力を受け取り、自分で判断し、自分で実行する。AIは「道具」であり、操作する主体は常に人間だった。
GPT-5.4のPC操作モードは、この構造を反転させる。AIがスプレッドシートを開き、セルに数値を入力し、グラフを生成し、ファイルを保存する。ブラウザを操作し、ウェブサイトを巡回し、フォームに入力する。人間がやっていたことを、AIが画面上で直接実行する。人間の役割は「操作する側」から「操作を監督する側」に移る。
別のテストでは、投資銀行のジュニアアナリストが行うようなスプレッドシートのモデリング作業——財務モデルの構築や数値分析——をAIに解かせた。GPT-5.4は87.3%の正答率を記録した。前世代の68.4%から19ポイントの向上だ(OpenAI公式)。ExcelやGoogle Sheetsへの財務プラグインも同時に発表された(VentureBeat報道)。これは「スプレッドシートの使い方を教えてくれるAI」ではなく、「スプレッドシートを自分で操作するAI」だ。
マニュアルを作る仕事と、マニュアルを実行する仕事
昨日、techtech.clubでは「画面録画をAIに渡してマニュアルを自動生成する」手法を取り上げた。画面操作を録画し、AIに渡すと、タイムスタンプ付きの業務マニュアルが自動で生成される。属人化した業務を誰でも再現可能にする手法として紹介した。
GPT-5.4の発表は、あの記事の一歩先を示している。AIがマニュアルを作るだけでなく、マニュアルに書かれた操作をAI自身が実行できるようになった。昨日は「人間の操作を記録してドキュメント化する」話だった。今日は「ドキュメント化された操作をAIが代行する」話だ。
この変化の意味を考えると、マニュアル化できる業務——つまり手順が明確で、判断の余地が少なく、繰り返し実行される業務——は、AIの操作対象になる。マニュアル化できない業務——文脈依存の判断、関係者間の調整、前例のない問題への対応——は、引き続き人間の領域に残る。ナレッジワーカーの仕事の定義が「PCを操作すること」から「何をPCに操作させるかを決めること」に移行する。
ベンチマークの先にある不確定性
だが、ここで立ち止まる必要がある。OSWorldのスコアが人間を上回ったことと、実務でAIにPC操作を任せられることの間には、まだ距離がある。75%の成功率は、4回に1回は失敗することを意味する。管理された環境での75%が、実務環境で何%になるかは未知数だ。
GPT-5.4は事実誤認を前世代比33%削減したとOpenAIは発表している。だが「33%減った」は「なくなった」ではない。AIが自律的にスプレッドシートを操作するとき、1つのセルの入力ミスが財務報告書全体を狂わせる可能性がある。テキスト生成の誤りは人間が読んで修正できる。だがPC操作の誤りは、操作が完了してから初めて発覚することがある。監督のコストが「指示を書くコスト」より低いかどうかは、まだ実証されていない。
方向は明確だ。AIは「答えを返す道具」から「タスクを実行する主体」に向かっている。だが、その移行のどこに自分がいるのか——何をAIに渡し、何を自分で握るのか——の判断は、ベンチマークの数字では教えてくれない。
「何をすべきか」を考える時間は、もはやAIの方が早い。残る問いは「何をさせるか」を決める側にいるか、決められた通りに動く側に回るかだ。その分岐点は、思ったより近い。

Drill Down ——もっと掘り下げる

her/世界でひとつの彼女
Context Timeline ——報道記事
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。













