// BUILD · STAGE Build 4-1

把影片逆向拆成Gemini Omni Flash可用的重建提示詞

這一課會帶你把任何一支影片逆向成可重建的 storyboard prompt 與 Gemini Omni Flash 影片提示詞。

CoAi
ENERGY
MISSION: SUPPORT YOU

// Video Reverse Prompt

用 Claude Code 做出真實作品。CoAi 說:做出來才叫做開始,想出來只叫做幻想。

完成獎勵:你會拿到一套從影片到提示詞的工作流,不再只會說『幫我分析這支片』。

Video Reverse Prompt

★ 完成獎勵:你會拿到一套從影片到提示詞的工作流,不再只會說『幫我分析這支片』。

你會做出什麼

一份可重複使用的影片逆向 SOP,外加每 10 秒一組的 storyboard prompt 與 Gemini Omni Flash 影片提示詞。

需要多久

45 分鐘

適合誰

適合已經會基本使用 Codex 或 Claude Code,想把短影音拆成可重建規格書的新手創作者與內容操盤手。

使用工具

Codex / Claude Code

// 今日任務

把一支影片拆成 10 秒規格

今天不要先生成新影片。先把原影片拆成素材、節奏、字幕、畫面順序與生成提示詞。

完成後交出

一份五流程課程筆記,加上每 10 秒一組的 ChatGPT storyboard prompt 與 Gemini Omni Flash video prompt。

01

先把任務邊界講清楚,不要一開始就叫 AI 自由發揮

這一課的第一步,不是抽幀。

也不是先開模型。

你要先把任務邊界講清楚:這次不是創作新版本,不是改寫腳本,不是做心得分析,而是把原影片當成唯一規格書,逆向成可重建的提示詞系統。

這一步很像開地圖。

地圖沒開好,後面每一步都會開始飄。

使用工具 / 程式

  • `Codex` 或 `Claude Code`:定義任務、固定輸出格式、建立工作邊界
  • 人工判斷:確認這次是逆向工程,不是再創作

可直接使用的 Prompt 咒語

請把我提供的影片當成唯一規格書。

這次任務不是分析影片,不是改寫影片,也不是創作新版本。

請你做的是逆向工程:

- 以原影片為唯一規格書
- 輸出能重建原影片的提示詞
- 每 10 秒切一組
- 每組都輸出:
  - ChatGPT Image storyboard prompt
  - Gemini Omni Flash video prompt

請在後續所有步驟中,都優先保留:

- 原人物外觀
- 原場景
- 原字幕原文
- 原畫面順序
- 原產品露出
- 原 CTA 出現方式
- 原商業推進節奏

如果你發現自己開始改寫、優化、創作、重設風格,請停下來,回到「原影片是唯一規格書」這個原則。

過關條件

你已經把任務從「幫我看看這支片」升級成「幫我做出一份可重建規格書」。 這時候 AI 的角色,不是靈感夥伴,而是逆向工程助手。

02

先把影片變成可操作素材,再談逆向

影片不能只靠肉眼看一遍。

你要先把影片拆成可以操作的素材:

  • 影片長度
  • 解析度
  • 幀率
  • 固定抽幀圖片
  • 每段總覽圖
  • `audio.wav`
  • `transcript.txt`
  • `transcript.srt`

這些東西就是你後面組 prompt 的原料包。

沒有原料包,你很容易只剩印象流。

使用工具 / 程式

  • `ffprobe`:讀影片長度、解析度、幀率
  • `ffmpeg`:固定抽幀、做 contact sheet、做每段 segment sheet、先抽出乾淨音訊
  • `Whisper CLI large-v3`:轉錄口播與時間戳
  • `transcript.srt`:後續唯一正式時間碼來源
  • `zsh / shell`:執行命令
  • `Codex functions.exec_command`:在代理流程裡實際跑指令

可直接使用的 Prompt 咒語

請先不要直接寫提示詞。

先把影片轉成可逆向的素材,依照以下順序處理:

1. 用 ffprobe 讀出影片長度、解析度、幀率
2. 先用 ffmpeg 從影片抽出 `audio.wav`
3. `audio.wav` 規格固定為 `pcm_s16le + 16kHz + mono`
4. 把 `audio.wav` 丟給 Whisper,使用 `large-v3`
5. 產出 `transcript.txt` 與 `transcript.srt`
6. 以固定頻率抽幀,不要先做複雜場景偵測
7. 依影片總長每 10 秒切段,為每段做總覽圖
8. 回報我:
   - 影片總長
   - 影片尺寸
   - 抽幀總數
   - 幀圖存放路徑
   - `audio.wav` 是否成功產出
   - `transcript.txt` 是否成功產出
   - `transcript.srt` 是否成功產出
   - 每段切分結果
9. 後續所有口播時間碼,都一律以 `transcript.srt` 為準

如果本機已經有 Whisper 模型,請直接使用本機模型,不要重新下載。

過關條件

你手上已經不是只有一支 mp4。 你有影片 metadata、幀圖、總覽圖、每段切分、`audio.wav`、`transcript.txt`,以及最重要的 `transcript.srt`,後面才真的有東西可以對齊。

03

根據幀圖與 transcript,拆出畫面順序與商業節奏

這一步才開始真正逆向。

你要看的不是「這支影片好像很厲害」。

你要拆的是:

  • 主角或主體長什麼樣
  • 在哪個場景說話、移動或操作
  • 什麼時候切到產品
  • 什麼時候切到螢幕操作
  • 字幕長怎樣
  • 口播在哪句開始 CTA
  • 商業推進是先 hook、再教學、再 proof、再 CTA,還是別的順序

這一步拆得越清楚,後面生成的 prompt 就越像規格書,而不是散文。

使用工具 / 程式

  • `functions.view_image`:看 contact sheet 與 segment sheet
  • `transcript.srt`:對齊口播與時間戳
  • `Codex` 或 `Claude Code`:把畫面資訊結構化
  • 人工視覺分析:判斷鏡頭切點、字幕樣式、產品露出、CTA 節奏

可直接使用的 Prompt 咒語

請根據抽出的幀圖、segment sheet 與 `transcript.srt`,幫我把影片拆成每 10 秒一組的重建規格。

每一組請先不要直接寫完整生成 prompt。

先整理以下資訊:

- 主角外觀
- 場景與背景
- 產品名稱與外觀
- 畫面順序
- 鏡頭距離與角度
- 手勢與表情
- 螢幕操作畫面
- 字幕原文
- 字幕位置與樣式
- 口播對應秒數
- CTA 開始時間
- 商業推進節奏

請務必指出:

- 哪些鏡頭是 selfie talking head
- 哪些鏡頭是用手機拍 laptop screen
- 哪些地方是 product reveal
- 哪些地方是 proof
- 哪些地方開始進 CTA

輸出格式請先做成結構化筆記,不要寫成散文評論。

過關條件

你已經把影片拆成一份規格筆記。 這時候你不是在猜影片,而是在描述影片。

04

把規格筆記組成 ChatGPT storyboard prompt

有了規格筆記,下一步才是組 prompt。

這邊的目標不是讓 ChatGPT Image 隨便幫你畫一張靈感圖。

而是要讓它一次產出一張有 8 到 12 格分鏡的 storyboard 圖,逐格重建這 10 秒內的畫面順序與節奏。

所以 prompt 裡要寫的是:

  • 人物長相
  • 場景
  • 鏡頭順序
  • 文字位置
  • 節奏
  • 產品露出

不是只寫一句「請幫我做分鏡」。

使用工具 / 程式

  • `Codex` 或 `Claude Code`:把規格筆記重寫成 storyboard prompt
  • 人工 prompt engineering:補齊視覺層級、字幕樣式、分鏡順序

可直接使用的 Prompt 咒語

請把剛剛整理好的 10 秒規格筆記,改寫成一段可以直接貼進 ChatGPT Image 的 storyboard prompt。

要求:

- 輸出一張單一 vertical 9:16 storyboard sheet
- 一張圖包含 8 到 12 格分鏡
- 逐格重建原影片這 10 秒的順序
- 不要做分析,不要寫心得
- 要完整描述:
  - 主角長相
  - 髮型、膚色、年齡感、穿著
  - 場景與背景物件
  - 構圖
  - 鏡頭距離與角度
  - 動作、手勢、表情
  - 產品位置
  - 原字幕原文
  - 字幕位置、大小、排版
  - 原畫面順序
  - 原影片節奏
  - 原商業推進節奏

請直接輸出完整 storyboard prompt,不要加前言,不要加分析標籤。

過關條件

你手上已經有一段可以直接丟給 ChatGPT Image 的 storyboard prompt。 它的任務不是發想,而是把這 10 秒畫面盡量照原片排回來。

05

把同一份規格改寫成 Gemini Omni Flash 的 10 秒影片提示詞

最後一步,才是影片模型。

Gemini Omni Flash 吃的不是分鏡圖邏輯,而是影片生成邏輯。

所以你要把同一份規格筆記,再翻成另一種語言:

  • scene description
  • camera direction
  • action timing
  • pacing
  • product placement
  • on-screen text
  • voiceover direction
  • CTA timing
  • visual details
  • negative prompt

同一份資料,換一個輸出層。

這就是模型適配。

使用工具 / 程式

  • `Codex` 或 `Claude Code`:把規格筆記轉成 Gemini Omni Flash 影片 prompt
  • 人工模型適配判斷:控制段長、時間軸、字幕同步、負面提示

可直接使用的 Prompt 咒語

請把同一份 10 秒規格筆記,改寫成可直接貼進 Gemini Omni Flash 的影片提示詞。

目標:

- 生成對應這 10 秒 segment 的影片
- 盡可能重建原影片
- 不創作新版本

請務必包含:

- scene description
- camera direction
- action timing
- pacing
- product placement
- on-screen text
- voiceover direction
- CTA timing
- visual details
- negative prompt

還原重點:

- 原人物外觀
- 原場景
- 原畫面
- 原鏡頭順序
- 原鏡頭運動
- 原人物動作
- 原產品出現時間點
- 原字幕原文
- 原字幕出現時間點
- 原口播節奏
- 原剪輯節奏
- 原 CTA 出現方式
- 原商業推進節奏

請直接輸出完整 Gemini Omni Flash video prompt,不要寫分析。

過關條件

你已經把同一支影片拆成兩層可用輸出: - 一層是給 ChatGPT Image 的 storyboard prompt - 一層是給 Gemini Omni Flash 的 10 秒影片 prompt 這樣你之後只要換片、重跑流程,就能批量做逆向工程。

// 主要 Prompt 咒語

直接貼給 Claude Code

請把我提供的影片當成唯一規格書。

這次任務不是分析影片,不是改寫影片,也不是創作新版本。

請你做的是逆向工程:

- 以原影片為唯一規格書
- 輸出能重建原影片的提示詞
- 每 10 秒切一組
- 每組都輸出:
  - ChatGPT Image storyboard prompt
  - Gemini Omni Flash video prompt

請在後續所有步驟中,都優先保留:

- 原人物外觀
- 原場景
- 原字幕原文
- 原畫面順序
- 原產品露出
- 原 CTA 出現方式
- 原商業推進節奏

如果你發現自己開始改寫、優化、創作、重設風格,請停下來,回到「原影片是唯一規格書」這個原則。