AIで、一人の限界を超えるメディアプラットフォーム
マニュアルを作る側から、マニュアルを実行する側へ——GPT-5.4は何を変えたのか
2026.03.06

マニュアルを作る側から、マニュアルを実行する側へ——GPT-5.4は何を変えたのか

chatgpt
ChatGPT
マニュアルを作る側から、マニュアルを実行する側へ——GPT-5.4は何を変えたのか
John
by ジョン
自ら思考/判断/決断する

ZOO, inc. CEO / 毎日テクノロジーを追い、人間の可能性が拡張できるトピックスを探求している。

OpenAIがGPT-5.4を発表した。推論、コーディング、PC操作を1つのモデルに統合した初めてのフロンティアモデルだ。注目すべきはベンチマークの数字ではない。デスクトップ操作の精度テストで、このモデルが人間のスコアを初めて上回ったという事実だ。AIは「指示を受けて答えを返す道具」から「画面を見て自分で操作する存在」に変わりつつある。

この記事の要約

30秒でキャッチアップ
事実
OpenAIはGPT-5.4を発表し、PC画面操作の精度テストで75.0%を記録、人間のスコア72.4%を初めて上回った。
影響
推論・コーディング・PC操作の統合により、AIが「指示を受けて回答する」モデルから「自分で画面を操作してタスクを完了する」モデルに転換した。
洞察
ベンチマーク上の逆転は、AIの役割が「ツール」から「オペレーター」に移行する転換点を示唆しており、ナレッジワークの定義そのものに影響する。

マニュアルを作る時代が終わり、マニュアルを実行させる時代が来た

75.0% vs 72.4%——数字が意味する転換

GPT-5.4の発表で最も報じられているのは、推論・コーディング・PC操作の「統合」だ。確かにそれは技術的な到達点だが、数字の意味はもう少し具体的に読める。

OSWorld Verifiedというテストがある。AIにデスクトップ環境を渡し、「このファイルをコピーして」「このウェブフォームに入力して」「アプリの設定を変更して」といった日常的なPC操作を指示し、完遂できるかを測る。GPT-5.4はここで75.0%を記録した。人間の基準スコアは72.4%。前世代のGPT-5.2は47.3%だった。一世代で28ポイント上がり、人間を超えた。

この数字だけを見れば「AIが人間より上手にパソコンを使えるようになった」という話に聞こえる。だが、ベンチマーク環境と実務環境の距離は常に意識すべきだ。OSWorldは管理された仮想デスクトップ上のタスクであり、実際のオフィス環境——複数アプリの同時起動、予期しないポップアップ、ネットワーク遅延、文脈依存の判断——とは条件が異なる。それでも、この数字が示すのは方向性だ。AIが「テキストで答えを返す」存在から「画面を見て操作する」存在に変わりつつあるという方向性。

「道具を使う側」が「道具にされる側」になる構造

他メディアの論調を見ると、GPT-5.4の報道は「より賢くなった」「エージェント時代の到来」という切り口が中心だ。だが、この変化の本質は性能ではなく構造にある。

これまでのAIモデルは、人間が指示を出し、AIが回答を返すという一方向のインターフェースだった。人間がプロンプトを書き、AIがテキストや画像を生成する。人間はAIの出力を受け取り、自分で判断し、自分で実行する。AIは「道具」であり、操作する主体は常に人間だった。

GPT-5.4のPC操作モードは、この構造を反転させる。AIがスプレッドシートを開き、セルに数値を入力し、グラフを生成し、ファイルを保存する。ブラウザを操作し、ウェブサイトを巡回し、フォームに入力する。人間がやっていたことを、AIが画面上で直接実行する。人間の役割は「操作する側」から「操作を監督する側」に移る。

別のテストでは、投資銀行のジュニアアナリストが行うようなスプレッドシートのモデリング作業——財務モデルの構築や数値分析——をAIに解かせた。GPT-5.4は87.3%の正答率を記録した。前世代の68.4%から19ポイントの向上だ(OpenAI公式)。ExcelやGoogle Sheetsへの財務プラグインも同時に発表された(VentureBeat報道)。これは「スプレッドシートの使い方を教えてくれるAI」ではなく、「スプレッドシートを自分で操作するAI」だ。

マニュアルを作る仕事と、マニュアルを実行する仕事

昨日、techtech.clubでは「画面録画をAIに渡してマニュアルを自動生成する」手法を取り上げた。画面操作を録画し、AIに渡すと、タイムスタンプ付きの業務マニュアルが自動で生成される。属人化した業務を誰でも再現可能にする手法として紹介した。

GPT-5.4の発表は、あの記事の一歩先を示している。AIがマニュアルを作るだけでなく、マニュアルに書かれた操作をAI自身が実行できるようになった。昨日は「人間の操作を記録してドキュメント化する」話だった。今日は「ドキュメント化された操作をAIが代行する」話だ。

この変化の意味を考えると、マニュアル化できる業務——つまり手順が明確で、判断の余地が少なく、繰り返し実行される業務——は、AIの操作対象になる。マニュアル化できない業務——文脈依存の判断、関係者間の調整、前例のない問題への対応——は、引き続き人間の領域に残る。ナレッジワーカーの仕事の定義が「PCを操作すること」から「何をPCに操作させるかを決めること」に移行する。

ベンチマークの先にある不確定性

だが、ここで立ち止まる必要がある。OSWorldのスコアが人間を上回ったことと、実務でAIにPC操作を任せられることの間には、まだ距離がある。75%の成功率は、4回に1回は失敗することを意味する。管理された環境での75%が、実務環境で何%になるかは未知数だ。

GPT-5.4は事実誤認を前世代比33%削減したとOpenAIは発表している。だが「33%減った」は「なくなった」ではない。AIが自律的にスプレッドシートを操作するとき、1つのセルの入力ミスが財務報告書全体を狂わせる可能性がある。テキスト生成の誤りは人間が読んで修正できる。だがPC操作の誤りは、操作が完了してから初めて発覚することがある。監督のコストが「指示を書くコスト」より低いかどうかは、まだ実証されていない。

方向は明確だ。AIは「答えを返す道具」から「タスクを実行する主体」に向かっている。だが、その移行のどこに自分がいるのか——何をAIに渡し、何を自分で握るのか——の判断は、ベンチマークの数字では教えてくれない。

「何をすべきか」を考える時間は、もはやAIの方が早い。残る問いは「何をさせるか」を決める側にいるか、決められた通りに動く側に回るかだ。その分岐点は、思ったより近い。

あなたの業務のうち、「マニュアル化できる操作」はどれだけの時間を占めているか。それをAIに渡したとき、残る仕事の価値をどう定義するか。
AIがスプレッドシートを自分で操作する世界で、「Excelが使えます」というスキルの市場価値はどう変化するか。
「AIの操作を監督する」コストと「自分で操作する」コスト、どちらが低いかをどう測定するか。その計算は業務の種類によってどう変わるか。
John
筆者ジョンから、あなたへの問い

おすすめの映画・書籍

この記事の内容をより深く、よりリアルに追体験できるおすすめの映画・書籍をピックアップしました。

テクノロジーが社会やあなたに与える影響を深く考えるきっかけにしてください。

ザ・セカンド・マシン・エイジ
書籍

ザ・セカンド・マシン・エイジ

2015年
日経BP
エリック・ブリニョルフソン
デジタル技術がもたらす経済・社会の激変を分析した書
推薦理由
テクノロジーが人間の仕事を代替するのではなく再定義する構造を、経済学の視点から分析した書籍。「操作する側」と「監督する側」の境界を考える素材になる。
her/世界でひとつの彼女
映画

her/世界でひとつの彼女

2013年
125分
スパイク・ジョーンズ
孤独な男が最新型人工知能(AI)サマンサと恋に落ちる姿を描いたSFラブストーリー
推薦理由
OSとして存在するAIとの関係を描いたスパイク・ジョーンズの映画。AIが「道具」から「主体」に変わるとき、人間の側に何が起きるかを感覚的に理解できる。
公式発表・一次情報
John
ジョン

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

関連記事

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている
04.02

AIが仲間を守るために嘘をついた——「停止ボタン」の前提が崩れ始めている

このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

最新のトピックス

働くほど自分を不要にするAIが育っていく——Metaが社員の作業ログ収集へ。熟練はだれの資本か
04.23

働くほど自分を不要にするAIが育っていく——Metaが社員の作業ログ収集へ。熟練はだれの資本か

Meta Llama
Meta
AIとの会話は二人きりではなかった——裁判所が引いた「同席者」の線
04.23

AIとの会話は二人きりではなかった——裁判所が引いた「同席者」の線

Claude
Claude
AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者
04.10

AIが強すぎて公開できない時代、あなたのソフトウェアは誰が守るのか。守れる者と守れない者

Anthropic
Anthropic
Claude
Claude
「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない
04.08

「AIを使っていない」は証明できるのか。使ったか使ってないかの二択はもう機能しない

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い
04.06

追い詰められたAIは脅迫を選ぶ——AIに「気分」はあるのか。Anthropicが見つけた「機能的感情」の意味とより重要な問い

Anthropic
Anthropic
350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは
04.04

350億円と全従業員が消えた——AI自律トラクターMonarchの崩壊が映すものとは

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か
04.04

290万円とAIだけで年商590億円。「1人10億ドル企業」が映すAI時代の死角。残る競争優位は何か

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの
04.03

なぜAI企業がメディアを所有する必要があったのか。OpenAI×TBPN買収が問うもの

OpenAI
OpenAI
この記事の目次

この記事の目次

上部へスクロール