把影片逆向拆成 Gemini Omni Flash 可用的重建提示詞

Video Reverse Prompt

★ 完成獎勵：你會拿到一套從影片到提示詞的工作流，不再只會說『幫我分析這支片』。

你會做出什麼

一份可重複使用的影片逆向 SOP，外加每 10 秒一組的 storyboard prompt 與 Gemini Omni Flash 影片提示詞。

需要多久

45 分鐘

適合誰

適合已經會基本使用 Codex 或 Claude Code，想把短影音拆成可重建規格書的新手創作者與內容操盤手。

使用工具

Codex / Claude Code

// 今日任務

把一支影片拆成 10 秒規格

今天不要先生成新影片。先把原影片拆成素材、節奏、字幕、畫面順序與生成提示詞。

完成後交出

一份五流程課程筆記，加上每 10 秒一組的 ChatGPT storyboard prompt 與 Gemini Omni Flash video prompt。

先把任務邊界講清楚，不要一開始就叫 AI 自由發揮

這一課的第一步，不是抽幀。

也不是先開模型。

你要先把任務邊界講清楚：這次不是創作新版本，不是改寫腳本，不是做心得分析，而是把原影片當成唯一規格書，逆向成可重建的提示詞系統。

這一步很像開地圖。

地圖沒開好，後面每一步都會開始飄。

使用工具 / 程式

`Codex` 或 `Claude Code`：定義任務、固定輸出格式、建立工作邊界
人工判斷：確認這次是逆向工程，不是再創作

可直接使用的 Prompt 咒語

請把我提供的影片當成唯一規格書。

這次任務不是分析影片，不是改寫影片，也不是創作新版本。

請你做的是逆向工程：

- 以原影片為唯一規格書
- 輸出能重建原影片的提示詞
- 每 10 秒切一組
- 每組都輸出：
  - ChatGPT Image storyboard prompt
  - Gemini Omni Flash video prompt

請在後續所有步驟中，都優先保留：

- 原人物外觀
- 原場景
- 原字幕原文
- 原畫面順序
- 原產品露出
- 原 CTA 出現方式
- 原商業推進節奏

如果你發現自己開始改寫、優化、創作、重設風格，請停下來，回到「原影片是唯一規格書」這個原則。

過關條件

你已經把任務從「幫我看看這支片」升級成「幫我做出一份可重建規格書」。這時候 AI 的角色，不是靈感夥伴，而是逆向工程助手。

先把影片變成可操作素材，再談逆向

影片不能只靠肉眼看一遍。

你要先把影片拆成可以操作的素材：

影片長度
解析度
幀率
固定抽幀圖片
每段總覽圖
`audio.wav`
`transcript.txt`
`transcript.srt`

這些東西就是你後面組 prompt 的原料包。

沒有原料包，你很容易只剩印象流。

使用工具 / 程式

`ffprobe`：讀影片長度、解析度、幀率
`ffmpeg`：固定抽幀、做 contact sheet、做每段 segment sheet、先抽出乾淨音訊
`Whisper CLI large-v3`：轉錄口播與時間戳
`transcript.srt`：後續唯一正式時間碼來源
`zsh / shell`：執行命令
`Codex functions.exec_command`：在代理流程裡實際跑指令

可直接使用的 Prompt 咒語

請先不要直接寫提示詞。

先把影片轉成可逆向的素材，依照以下順序處理：

1. 用 ffprobe 讀出影片長度、解析度、幀率
2. 先用 ffmpeg 從影片抽出 `audio.wav`
3. `audio.wav` 規格固定為 `pcm_s16le + 16kHz + mono`
4. 把 `audio.wav` 丟給 Whisper，使用 `large-v3`
5. 產出 `transcript.txt` 與 `transcript.srt`
6. 以固定頻率抽幀，不要先做複雜場景偵測
7. 依影片總長每 10 秒切段，為每段做總覽圖
8. 回報我：
   - 影片總長
   - 影片尺寸
   - 抽幀總數
   - 幀圖存放路徑
   - `audio.wav` 是否成功產出
   - `transcript.txt` 是否成功產出
   - `transcript.srt` 是否成功產出
   - 每段切分結果
9. 後續所有口播時間碼，都一律以 `transcript.srt` 為準

如果本機已經有 Whisper 模型，請直接使用本機模型，不要重新下載。

過關條件

你手上已經不是只有一支 mp4。你有影片 metadata、幀圖、總覽圖、每段切分、`audio.wav`、`transcript.txt`，以及最重要的 `transcript.srt`，後面才真的有東西可以對齊。

根據幀圖與 transcript，拆出畫面順序與商業節奏

這一步才開始真正逆向。

你要看的不是「這支影片好像很厲害」。

你要拆的是：

主角或主體長什麼樣
在哪個場景說話、移動或操作
什麼時候切到產品
什麼時候切到螢幕操作
字幕長怎樣
口播在哪句開始 CTA
商業推進是先 hook、再教學、再 proof、再 CTA，還是別的順序

這一步拆得越清楚，後面生成的 prompt 就越像規格書，而不是散文。

使用工具 / 程式

`functions.view_image`：看 contact sheet 與 segment sheet
`transcript.srt`：對齊口播與時間戳
`Codex` 或 `Claude Code`：把畫面資訊結構化
人工視覺分析：判斷鏡頭切點、字幕樣式、產品露出、CTA 節奏

可直接使用的 Prompt 咒語

請根據抽出的幀圖、segment sheet 與 `transcript.srt`，幫我把影片拆成每 10 秒一組的重建規格。

每一組請先不要直接寫完整生成 prompt。

先整理以下資訊：

- 主角外觀
- 場景與背景
- 產品名稱與外觀
- 畫面順序
- 鏡頭距離與角度
- 手勢與表情
- 螢幕操作畫面
- 字幕原文
- 字幕位置與樣式
- 口播對應秒數
- CTA 開始時間
- 商業推進節奏

請務必指出：

- 哪些鏡頭是 selfie talking head
- 哪些鏡頭是用手機拍 laptop screen
- 哪些地方是 product reveal
- 哪些地方是 proof
- 哪些地方開始進 CTA

輸出格式請先做成結構化筆記，不要寫成散文評論。

過關條件

你已經把影片拆成一份規格筆記。這時候你不是在猜影片，而是在描述影片。

把規格筆記組成 ChatGPT storyboard prompt

有了規格筆記，下一步才是組 prompt。

這邊的目標不是讓 ChatGPT Image 隨便幫你畫一張靈感圖。

而是要讓它一次產出一張有 8 到 12 格分鏡的 storyboard 圖，逐格重建這 10 秒內的畫面順序與節奏。

所以 prompt 裡要寫的是：

人物長相
場景
鏡頭順序
文字位置
節奏
產品露出

不是只寫一句「請幫我做分鏡」。

使用工具 / 程式

`Codex` 或 `Claude Code`：把規格筆記重寫成 storyboard prompt
人工 prompt engineering：補齊視覺層級、字幕樣式、分鏡順序

可直接使用的 Prompt 咒語

請把剛剛整理好的 10 秒規格筆記，改寫成一段可以直接貼進 ChatGPT Image 的 storyboard prompt。

要求：

- 輸出一張單一 vertical 9:16 storyboard sheet
- 一張圖包含 8 到 12 格分鏡
- 逐格重建原影片這 10 秒的順序
- 不要做分析，不要寫心得
- 要完整描述：
  - 主角長相
  - 髮型、膚色、年齡感、穿著
  - 場景與背景物件
  - 構圖
  - 鏡頭距離與角度
  - 動作、手勢、表情
  - 產品位置
  - 原字幕原文
  - 字幕位置、大小、排版
  - 原畫面順序
  - 原影片節奏
  - 原商業推進節奏

請直接輸出完整 storyboard prompt，不要加前言，不要加分析標籤。

過關條件

你手上已經有一段可以直接丟給 ChatGPT Image 的 storyboard prompt。它的任務不是發想，而是把這 10 秒畫面盡量照原片排回來。

把同一份規格改寫成 Gemini Omni Flash 的 10 秒影片提示詞

最後一步，才是影片模型。

Gemini Omni Flash 吃的不是分鏡圖邏輯，而是影片生成邏輯。

所以你要把同一份規格筆記，再翻成另一種語言：

scene description
camera direction
action timing
pacing
product placement
on-screen text
voiceover direction
CTA timing
visual details
negative prompt

同一份資料，換一個輸出層。

這就是模型適配。

使用工具 / 程式

`Codex` 或 `Claude Code`：把規格筆記轉成 Gemini Omni Flash 影片 prompt
人工模型適配判斷：控制段長、時間軸、字幕同步、負面提示

可直接使用的 Prompt 咒語

請把同一份 10 秒規格筆記，改寫成可直接貼進 Gemini Omni Flash 的影片提示詞。

目標：

- 生成對應這 10 秒 segment 的影片
- 盡可能重建原影片
- 不創作新版本

請務必包含：

- scene description
- camera direction
- action timing
- pacing
- product placement
- on-screen text
- voiceover direction
- CTA timing
- visual details
- negative prompt

還原重點：

- 原人物外觀
- 原場景
- 原畫面
- 原鏡頭順序
- 原鏡頭運動
- 原人物動作
- 原產品出現時間點
- 原字幕原文
- 原字幕出現時間點
- 原口播節奏
- 原剪輯節奏
- 原 CTA 出現方式
- 原商業推進節奏

請直接輸出完整 Gemini Omni Flash video prompt，不要寫分析。

過關條件

你已經把同一支影片拆成兩層可用輸出： - 一層是給 ChatGPT Image 的 storyboard prompt - 一層是給 Gemini Omni Flash 的 10 秒影片 prompt 這樣你之後只要換片、重跑流程，就能批量做逆向工程。

// 主要 Prompt 咒語

直接貼給你的 AI coding agent

請把我提供的影片當成唯一規格書。

這次任務不是分析影片，不是改寫影片，也不是創作新版本。

請你做的是逆向工程：

- 以原影片為唯一規格書
- 輸出能重建原影片的提示詞
- 每 10 秒切一組
- 每組都輸出：
  - ChatGPT Image storyboard prompt
  - Gemini Omni Flash video prompt

請在後續所有步驟中，都優先保留：

- 原人物外觀
- 原場景
- 原字幕原文
- 原畫面順序
- 原產品露出
- 原 CTA 出現方式
- 原商業推進節奏

如果你發現自己開始改寫、優化、創作、重設風格，請停下來，回到「原影片是唯一規格書」這個原則。