画面録画をAIに渡すだけ。タイムスタンプ付きマニュアル作成が30分で完成

2026.03.05

画面録画をAIに渡すだけ。タイムスタンプ付きマニュアル作成が30分で完成

Gemini

社内マニュアルは必要だとわかっている。でも、スクリーンショットを1枚ずつ撮って、テキストを書いて、手順を整えて——この作業が面倒すぎて後回しにしてきた人は多い。結果、業務は属人化し「あの人に聞かないとわからない」がいつまでも解消されない。

画面操作を録画してAIに渡す。それだけで、タイムスタンプ付きの業務マニュアルが自動生成される。この記事では、プロンプト設計からマニュアル完成・共有までの全手順を、そのまま再現できるレベルで解説する。

できるようになること

30分後

AIに録画した動画を渡すだけで、タイムスタンプ付きのマニュアルが自動生成される仕組みが手元にある
1本目の業務マニュアルが完成している

その先

2本目以降は動画を貼るだけで同品質のマニュアルが量産できる
チーム共有可能なマニュアル（動画＋テキスト）がドキュメントツールに格納されている

最終アウトプット

今回は、「クラウドサインでの契約書送信手順」のマニュアルを作成した。

画面操作を録画した動画（約3分）をGeminiに渡し、以下のマニュアルが自動生成された。これはAIの出力そのままだ。

タイムスタンプ、ボタンの正式名称、UI上の位置情報、補足・注意事項まで自動で抽出されている。

結論

AIによるマニュアル自動生成は、「面倒だから後回し」を構造ごと消す方法だ。そして、「マニュアル作成」はもう人間の仕事ではない。

向いている人：

属人化した業務を抱えていて、マニュアル整備が後回しになっているチーム
SaaS操作、社内システム、Excel作業など、画面操作を伴う業務のマニュアルを作りたい人
マニュアル作成に時間をかけたくないが、品質は担保したい人

向いていない人：

画面操作を伴わない業務（対面接客、倉庫作業など）のマニュアルを作りたい人。録画ができるようであればチャレンジしてみても良い。
機密性の高いシステム画面を扱う環境にいる人。クラウドAIに動画をアップロードするため、セキュリティポリシーの確認が必要
30分を超える長時間の操作手順をまとめたい人。動画を分割して複数のマニュアルに分ける対応が必要になる

具体的な使用方法と手順

今回は、GoogleのAI「Gemini」を使用した方法。

なぜGeminiなのか。動画ファイルを直接アップロードして解析できるAIは、現時点ではGeminiが最も実用的だ。さらにGeminiは音声も同時に解析するため、操作中に話した説明がそのまま手順テキストに反映される。Gem機能でプロンプトを保存すれば、2本目以降は動画を貼るだけ。しかも無料で使える。

マニュアル作成用のプロンプトを設計する
GeminiのGemにプロンプトを登録する
画面操作を録画する
Geminiに動画を渡してマニュアルを生成する
生成されたマニュアルを確認する
ドキュメントツールに格納して共有する

マニュアル作成用のプロンプトを設計する

まずはマニュアルを作成するためのAIの「型」を作成する。マニュアルの出力フォーマットや記述ルールを定めたプロンプトだ。これがあることで、2本目以降は動画を貼り付けるだけでいい。

自分でゼロから書く必要はない。AIに要件を伝えて叩きを作らせ、それを調整する。

以下のプロンプトを、普段使っているAI（Gemini、Claude、ChatGPTなど何でもよい）に投げる。

使用プロンプト：

マニュアル作成のAIプロジェクトを作成するためのプロンプトをマークダウンで記載してほしい。
要件は以下のとおりです。

# タスク
社内マニュアルの作成

# インプット
* 画面動画のファイル

# アウトプット
* 動画の内容を手順通りに記載したテキストのマニュアル

# マニュアルの目的
社内メンバーがマニュアルを見ることで、誰にも聞くことなく作業を行えること。

# アウトプットのフォーマット要件
* マニュアルのタイトルを最初にいれること
* 手順タイトル、手順の内容、動画の秒数を1ステップのセットとする
* 秒数は「（00:00）」のフォーマットで記載する
* 動画の音声から手順の内容を作成すること
* マニュアルに添付した動画は無音にするため、テキストでわかりやすく伝えること
* 誰が見ても、認識に齟齬を起こさない表現を用いること

期待される結果：

マークダウン形式のシステムプロンプトが出力される。役割定義、出力フォーマット、記述ルール、品質チェックリストなどが構造化された状態で返ってくる。

出力されたプロンプトを確認し、自社のマニュアルの文体やフォーマットに合わせて調整する。今回、AIが出力したプロンプトの主要な構成は以下のとおりだ。

役割定義: 画面操作の録画動画から社内業務マニュアルを作成する専門AI
基本方針: 自己完結性（マニュアルだけで完結）、無音前提（音声内容をすべてテキスト化）、曖昧さゼロ（指示語を排除）
出力フォーマット: タイトル → 概要 → 前提条件 → ステップ（手順タイトル＋秒数＋内容） → 補足・注意事項
記述ルール: ボタン名は正式名称、UI上の位置を明示、確認画面は省略しない、待機が必要なら記載
音声情報の処理: 操作説明→テキスト化、補足→「補足:」で追記、注意喚起→「注意:」で追記、雑談→無視

注意点：

プロンプトの調整は後からでもできる。まずはAIが出力したものをそのまま使い、実際にマニュアルを生成してみてから文体やフォーマットを微調整するのが効率的だ。

例えば「クリックします」を「クリック」に変えたい、ステップの粒度を変えたい、といった調整はプロンプトを1行修正するだけで済む。

GeminiのGemにプロンプトを登録する

工程1で作成したプロンプトを、GeminiのGem機能に登録する。Gemは、ChatGPTの「GPTs」やClaudeの「プロジェクト」に相当する機能で、指定した指示を繰り返して動作するAIを作れる。

Geminiにアクセスしてログイン
左サイドバーの「Gem」を開く
「Gemを作成」をクリック
Gemの名前を入力する（例：「マニュアル作成」）
「カスタム指示」に、工程1で作成したプロンプトを貼り付ける
「保存」をクリックする

期待される結果：

「マニュアル作成」Gemが保存され、いつでも呼び出せる状態になる。

注意点：

Gemに登録しておく最大の利点は、2本目以降のマニュアル作成が「動画を貼って一言指示するだけ」になること。毎回プロンプトを貼り直す手間がなくなるためGem機能を作っておくと良い。

またカスタム指示を編集すれば、Gemの挙動を後からでも変更できる。例えば「ステップの粒度を細かくして」と指示すれば、次回のマニュアル作成から自動的に粒度が細かくなる。

画面操作を録画する

マニュアル化したい業務の画面操作を、音声付きで録画する。

録画ツール：

Windows: 「Snipping Tool」または「Xbox Game Bar（Windowsキー + G）」の録画機能を使う
Mac: 「Shift + Command + 5」でmacOS標準の画面収録を起動する

どちらもOS標準搭載のため、追加インストールは不要。

録画時のコツ：

録画の質がマニュアルの質に直結する。以下の4点を意識する。

声で収録する：録画はマイクをオンにして操作を声で説明すること。これがあるのとないのとではマニュアルのクオリティが段違い。
最初に目的を宣言する：「これは〇〇のマニュアルです」と録画冒頭で話す。AIがマニュアルのタイトルと概要を正確に生成するための材料になる
操作のたびに声で説明する：「まず〇〇をクリック」「次に〇〇を入力」など、自分が何をしているかを言葉にする。AIは画面の動きと音声の両方から手順を抽出するため、声での説明があると精度が上がる
噛んでも、詰まっても問題ない：AIがフィラー（えーと、あのー）や言い直しを自動的にフィルタリングしてくれる。スムーズに話す必要はない

注意点：

録画した動画をそのままマニュアルに添付する場合、動画の音声は消しても問題ない。タイムスタンプがあるため、読者は無音の動画でも該当箇所を追える。ただし、録画時は必ず音声ありで撮ること。AIの精度に直接影響する。

もう一つ。動画は見た目がそのままマニュアルの動画になるため、操作の流れを事前に確認しておくこと。音声は消せるが、操作ミスや迷いは映像に残る。

Geminiに動画を渡してマニュアルを生成する

工程2で作成したGemを開き、録画した動画ファイルを添付して指示する。

Gemini左サイドバーから「マニュアル作成」Gemを選択する
チャット入力欄のクリップアイコン（添付）をクリックし、録画した動画ファイルをアップロードする
以下のメッセージを送信する

使用プロンプト：

添付した動画からマニュアルを作成してください。

これだけだ。Gemにプロンプトが登録されているため、フォーマットや記述ルールの指示は不要。

期待される結果：

タイムスタンプ付きのマニュアルがマークダウン形式で出力される。タイトル、概要、前提条件、ステップごとの手順（タイトル＋秒数＋内容）、補足・注意事項が自動で構成される。

注意点：

動画のアップロードに数十秒〜1分程度かかる場合がある。生成自体は1〜2分で完了する。

生成されたマニュアルを確認する

AIが生成したマニュアルを確認し、必要に応じて修正する。

確認すべきポイントは3つ。

タイムスタンプの精度：動画を再生しながら、各ステップの秒数が実際の操作タイミングと一致しているか確認する。今回の検証では、ほぼ正確だった
UI要素の名称：ボタン名やメニュー名が画面上の表記と一致しているか確認する。AIが推測で名称を書いている場合がある
手順の抜け漏れ: 操作ステップが飛んでいないか、確認ダイアログなどの暗黙的な操作が省略されていないか確認する

期待される結果：

8〜9割の精度でマニュアルが完成しており、修正は軽微な調整で済む。

注意点：

「完璧を目指さない」が重要だ。AIの出力を叩きとして、最低限の修正で仕上げる。ゼロから書くのと比べれば、確認・修正の5分は誤差のようなものだ。

ドキュメントツールに格納して共有する

完成したマニュアル（テキスト）と動画をドキュメントツールに格納し、チームに共有する。

Googleドキュメントの場合:

テキストマニュアルはそのままペーストする
動画（mp4）はGoogleドキュメントに直接埋め込めないため、Googleドライブに動画をアップロードし、そのリンクをドキュメント内に貼る

Notionの場合:

テキストマニュアルをペーストする
動画はページ内に直接埋め込みが可能

期待される結果：

テキストマニュアルと動画がセットで格納され、チームメンバーに共有できる状態になる。

注意点：

動画の共有方法は、GoogleドライブよりもNotionの方が楽だ。Googleドキュメントを使う場合は、動画のアクセス権限（「リンクを知っている全員」など）を忘れずに設定すること。YouTubeに非公開でアップロードして埋め込む方法もあるが、設定ミスで公開されるリスクを考えると、Googleドライブの方が安全だ。