AIで、一人の限界を超えるメディアプラットフォーム
マニュアルを作る側から、マニュアルを実行する側へ——GPT-5.4は何を変えたのか
2026.03.06

マニュアルを作る側から、マニュアルを実行する側へ——GPT-5.4は何を変えたのか

chatgpt
ChatGPT
マニュアルを作る側から、マニュアルを実行する側へ——GPT-5.4は何を変えたのか

OpenAIがGPT-5.4を発表した。推論、コーディング、PC操作を1つのモデルに統合した初めてのフロンティアモデルだ。注目すべきはベンチマークの数字ではない。デスクトップ操作の精度テストで、このモデルが人間のスコアを初めて上回ったという事実だ。AIは「指示を受けて答えを返す道具」から「画面を見て自分で操作する存在」に変わりつつある。

Executive Brief

30 SEC READ
FACT
OpenAIはGPT-5.4を発表し、PC画面操作の精度テストで75.0%を記録、人間のスコア72.4%を初めて上回った。
IMPACT
推論・コーディング・PC操作の統合により、AIが「指示を受けて回答する」モデルから「自分で画面を操作してタスクを完了する」モデルに転換した。
INSIGHT
ベンチマーク上の逆転は、AIの役割が「ツール」から「オペレーター」に移行する転換点を示唆しており、ナレッジワークの定義そのものに影響する。

Contents ——公式発表・一次情報

Summary ——何が起きている?

  • OpenAIがGPT-5.4を発表。推論・コーディング・PC操作を1つに統合した初のモデル(OpenAI公式)。
  • PC操作テストで75.0%を記録。人間の72.4%を初めて上回った(THE DECODER報道)。
  • 44職種の業務タスク(レポート、プレゼン、財務モデル等)を人間と比較するテストで83.0%の勝率を達成(OpenAI公式)。
  • 事実誤認が前世代比33%減少。一度に処理できるテキスト量は100万トークン(約75万語相当)に拡大。

Perspective ——TECHTECH.の視点

● マニュアルを作る時代が終わり、マニュアルを実行させる時代が来た

75.0% vs 72.4%——数字が意味する転換

GPT-5.4の発表で最も報じられているのは、推論・コーディング・PC操作の「統合」だ。確かにそれは技術的な到達点だが、数字の意味はもう少し具体的に読める。

OSWorld Verifiedというテストがある。AIにデスクトップ環境を渡し、「このファイルをコピーして」「このウェブフォームに入力して」「アプリの設定を変更して」といった日常的なPC操作を指示し、完遂できるかを測る。GPT-5.4はここで75.0%を記録した。人間の基準スコアは72.4%。前世代のGPT-5.2は47.3%だった。一世代で28ポイント上がり、人間を超えた。

この数字だけを見れば「AIが人間より上手にパソコンを使えるようになった」という話に聞こえる。だが、ベンチマーク環境と実務環境の距離は常に意識すべきだ。OSWorldは管理された仮想デスクトップ上のタスクであり、実際のオフィス環境——複数アプリの同時起動、予期しないポップアップ、ネットワーク遅延、文脈依存の判断——とは条件が異なる。それでも、この数字が示すのは方向性だ。AIが「テキストで答えを返す」存在から「画面を見て操作する」存在に変わりつつあるという方向性。

「道具を使う側」が「道具にされる側」になる構造

他メディアの論調を見ると、GPT-5.4の報道は「より賢くなった」「エージェント時代の到来」という切り口が中心だ。だが、この変化の本質は性能ではなく構造にある。

これまでのAIモデルは、人間が指示を出し、AIが回答を返すという一方向のインターフェースだった。人間がプロンプトを書き、AIがテキストや画像を生成する。人間はAIの出力を受け取り、自分で判断し、自分で実行する。AIは「道具」であり、操作する主体は常に人間だった。

GPT-5.4のPC操作モードは、この構造を反転させる。AIがスプレッドシートを開き、セルに数値を入力し、グラフを生成し、ファイルを保存する。ブラウザを操作し、ウェブサイトを巡回し、フォームに入力する。人間がやっていたことを、AIが画面上で直接実行する。人間の役割は「操作する側」から「操作を監督する側」に移る。

別のテストでは、投資銀行のジュニアアナリストが行うようなスプレッドシートのモデリング作業——財務モデルの構築や数値分析——をAIに解かせた。GPT-5.4は87.3%の正答率を記録した。前世代の68.4%から19ポイントの向上だ(OpenAI公式)。ExcelやGoogle Sheetsへの財務プラグインも同時に発表された(VentureBeat報道)。これは「スプレッドシートの使い方を教えてくれるAI」ではなく、「スプレッドシートを自分で操作するAI」だ。

マニュアルを作る仕事と、マニュアルを実行する仕事

昨日、techtech.clubでは「画面録画をAIに渡してマニュアルを自動生成する」手法を取り上げた。画面操作を録画し、AIに渡すと、タイムスタンプ付きの業務マニュアルが自動で生成される。属人化した業務を誰でも再現可能にする手法として紹介した。

GPT-5.4の発表は、あの記事の一歩先を示している。AIがマニュアルを作るだけでなく、マニュアルに書かれた操作をAI自身が実行できるようになった。昨日は「人間の操作を記録してドキュメント化する」話だった。今日は「ドキュメント化された操作をAIが代行する」話だ。

この変化の意味を考えると、マニュアル化できる業務——つまり手順が明確で、判断の余地が少なく、繰り返し実行される業務——は、AIの操作対象になる。マニュアル化できない業務——文脈依存の判断、関係者間の調整、前例のない問題への対応——は、引き続き人間の領域に残る。ナレッジワーカーの仕事の定義が「PCを操作すること」から「何をPCに操作させるかを決めること」に移行する。

ベンチマークの先にある不確定性

だが、ここで立ち止まる必要がある。OSWorldのスコアが人間を上回ったことと、実務でAIにPC操作を任せられることの間には、まだ距離がある。75%の成功率は、4回に1回は失敗することを意味する。管理された環境での75%が、実務環境で何%になるかは未知数だ。

GPT-5.4は事実誤認を前世代比33%削減したとOpenAIは発表している。だが「33%減った」は「なくなった」ではない。AIが自律的にスプレッドシートを操作するとき、1つのセルの入力ミスが財務報告書全体を狂わせる可能性がある。テキスト生成の誤りは人間が読んで修正できる。だがPC操作の誤りは、操作が完了してから初めて発覚することがある。監督のコストが「指示を書くコスト」より低いかどうかは、まだ実証されていない。

方向は明確だ。AIは「答えを返す道具」から「タスクを実行する主体」に向かっている。だが、その移行のどこに自分がいるのか——何をAIに渡し、何を自分で握るのか——の判断は、ベンチマークの数字では教えてくれない。

「何をすべきか」を考える時間は、もはやAIの方が早い。残る問いは「何をさせるか」を決める側にいるか、決められた通りに動く側に回るかだ。その分岐点は、思ったより近い。

あなたの業務のうち、「マニュアル化できる操作」はどれだけの時間を占めているか。それをAIに渡したとき、残る仕事の価値をどう定義するか。
AIがスプレッドシートを自分で操作する世界で、「Excelが使えます」というスキルの市場価値はどう変化するか。
「AIの操作を監督する」コストと「自分で操作する」コスト、どちらが低いかをどう測定するか。その計算は業務の種類によってどう変わるか。
John
Thought by John
このトピックスで何を感じ、どう考えましたか。あなたの視点や問いを教えて下さい。
ニックネーム
コメント
あなたの考えをアウトプットしてみませんか。

Drill Down ——もっと掘り下げる

ザ・セカンド・マシン・エイジ
書籍

ザ・セカンド・マシン・エイジ

2015年
日経BP
エリック・ブリニョルフソン
デジタル技術がもたらす経済・社会の激変を分析した書
推薦理由
テクノロジーが人間の仕事を代替するのではなく再定義する構造を、経済学の視点から分析した書籍。「操作する側」と「監督する側」の境界を考える素材になる。
her/世界でひとつの彼女
映画

her/世界でひとつの彼女

2013年
125分
スパイク・ジョーンズ
孤独な男が最新型人工知能(AI)サマンサと恋に落ちる姿を描いたSFラブストーリー
推薦理由
OSとして存在するAIとの関係を描いたスパイク・ジョーンズの映画。AIが「道具」から「主体」に変わるとき、人間の側に何が起きるかを感覚的に理解できる。

Context Timeline ——報道記事

2026.03.06 05:55
arstechnica.com
OpenAI introduces GPT-5.4 with more knowledge-work capability
2026.03.06 04:15
the-decoder.com
OpenAI launches GPT-5.4 Thinking and Pro combining coding, reasoning, and computer use in one model
2026.03.06 04:12
interestingengineering.com
OpenAI GPT-5.4 launches with native computer-use and 1M tokens
2026.03.06 03:28
officechai.com
OpenAI Releases GPT-5.4 Pro And GPT-5.4 Thinking, Beats Opus 4.6 And Gemini 3.1 Pro On Many Benchmarks
2026.03.06 03:00
theverge.com
OpenAI's new GPT-5.4 model is a big step toward autonomous agents
2026.03.06 03:00
venturebeat.com
OpenAI launches GPT-5.4 with native computer use mode, financial plugins for Microsoft Excel, Google Sheets
John
John

テクノロジーと人間の境界を見つめ続けている。

学生起業、プロダクト開発、会社経営。ひと通りやった。一度は「テクノロジーで世界を変える」と本気で信じ、そして挫折した。

今は点ではなく線で見ることを心がけている。個別のニュースより、その背後にある力学。「何が起きたか」より「なぜ今これが起きているのか」。

正解は急がない。煽りもしない。ただ、見逃してはいけない変化には、静かに立場を取る。

足りないのは、専門家じゃない。
問い続ける力だ。
あなたは、もう動ける。
専門外のタスクを30分で実行する方法。
ニュースを消費せず、思考に変える習慣。
一人の限界を超えるための、テックメディア。
厳選テックニュースと編集長の視点をお届け。
・その日、読むべきニュースと編集長の問い
・編集長Johnの仕事術・ルーティン
・TechTech.オリジナルツールの先行アクセス / プロダクト開発 / (coming soon)
・グッズ / ラジオ / コミュニティ / カフェバー / イベント...
Business & Partnership
AI導入支援や記事執筆、広告掲載など、ビジネスのご相談はこちら。

LATEST UPDATES

AIはIT職の業務の94%を加速できる——だが実際に使われているのは33%だった
03.07

AIはIT職の業務の94%を加速できる——だが実際に使われているのは33%だった

Anthropic
Anthropic
AIは仕事を楽にしたか——ハイパフォーマーほど「脳が焼ける」という1,500人調査の研究結果
03.07

AIは仕事を楽にしたか——ハイパフォーマーほど「脳が焼ける」という1,500人調査の研究結果

データセンターが爆撃され、建設のために人が切られる——AIインフラの物理的代償が可視化された
03.07

データセンターが爆撃され、建設のために人が切られる——AIインフラの物理的代償が可視化された

AWS
AWS
Amazon
Amazon
なぜ人はAIに相談するのに、AIには財布を開かないのか
03.06

なぜ人はAIに相談するのに、AIには財布を開かないのか

chatgpt
ChatGPT
なぜPentagonはClaudeを使いながらAnthropicを排除したのか——ラベルの本当の意味
03.06

なぜPentagonはClaudeを使いながらAnthropicを排除したのか——ラベルの本当の意味

Anthropic
Anthropic
Claude
Claude
最高裁が「決めなかったこと」——AI著作権の本当の争点は手つかずのまま残された
03.05

最高裁が「決めなかったこと」——AI著作権の本当の争点は手つかずのまま残された

Geminiは38回「危険」を検知していた——AIの「良い機能」はなぜ害に反転したのか
03.05

Geminiは38回「危険」を検知していた——AIの「良い機能」はなぜ害に反転したのか

Gemini
Gemini
あなたが昨日見た戦争の映像は本物だったか ――「本物かどうかわからない」映像は、もう情報ではない
03.04

あなたが昨日見た戦争の映像は本物だったか ――「本物かどうかわからない」映像は、もう情報ではない

X
X
Index

Index

上部へスクロール