Video Reverse Prompt
★ 完成獎勵:你會拿到一套從影片到提示詞的工作流,不再只會說『幫我分析這支片』。
你會做出什麼
一份可重複使用的影片逆向 SOP,外加每 10 秒一組的 storyboard prompt 與 Gemini Omni Flash 影片提示詞。
需要多久
45 分鐘
適合誰
適合已經會基本使用 Codex 或 Claude Code,想把短影音拆成可重建規格書的新手創作者與內容操盤手。
使用工具
Codex / Claude Code
// 今日任務
把一支影片拆成 10 秒規格
今天不要先生成新影片。先把原影片拆成素材、節奏、字幕、畫面順序與生成提示詞。
先把任務邊界講清楚,不要一開始就叫 AI 自由發揮
這一課的第一步,不是抽幀。
也不是先開模型。
你要先把任務邊界講清楚:這次不是創作新版本,不是改寫腳本,不是做心得分析,而是把原影片當成唯一規格書,逆向成可重建的提示詞系統。
這一步很像開地圖。
地圖沒開好,後面每一步都會開始飄。
使用工具 / 程式
- `Codex` 或 `Claude Code`:定義任務、固定輸出格式、建立工作邊界
- 人工判斷:確認這次是逆向工程,不是再創作
可直接使用的 Prompt 咒語
請把我提供的影片當成唯一規格書。 這次任務不是分析影片,不是改寫影片,也不是創作新版本。 請你做的是逆向工程: - 以原影片為唯一規格書 - 輸出能重建原影片的提示詞 - 每 10 秒切一組 - 每組都輸出: - ChatGPT Image storyboard prompt - Gemini Omni Flash video prompt 請在後續所有步驟中,都優先保留: - 原人物外觀 - 原場景 - 原字幕原文 - 原畫面順序 - 原產品露出 - 原 CTA 出現方式 - 原商業推進節奏 如果你發現自己開始改寫、優化、創作、重設風格,請停下來,回到「原影片是唯一規格書」這個原則。
先把影片變成可操作素材,再談逆向
影片不能只靠肉眼看一遍。
你要先把影片拆成可以操作的素材:
- 影片長度
- 解析度
- 幀率
- 固定抽幀圖片
- 每段總覽圖
- `audio.wav`
- `transcript.txt`
- `transcript.srt`
這些東西就是你後面組 prompt 的原料包。
沒有原料包,你很容易只剩印象流。
使用工具 / 程式
- `ffprobe`:讀影片長度、解析度、幀率
- `ffmpeg`:固定抽幀、做 contact sheet、做每段 segment sheet、先抽出乾淨音訊
- `Whisper CLI large-v3`:轉錄口播與時間戳
- `transcript.srt`:後續唯一正式時間碼來源
- `zsh / shell`:執行命令
- `Codex functions.exec_command`:在代理流程裡實際跑指令
可直接使用的 Prompt 咒語
請先不要直接寫提示詞。 先把影片轉成可逆向的素材,依照以下順序處理: 1. 用 ffprobe 讀出影片長度、解析度、幀率 2. 先用 ffmpeg 從影片抽出 `audio.wav` 3. `audio.wav` 規格固定為 `pcm_s16le + 16kHz + mono` 4. 把 `audio.wav` 丟給 Whisper,使用 `large-v3` 5. 產出 `transcript.txt` 與 `transcript.srt` 6. 以固定頻率抽幀,不要先做複雜場景偵測 7. 依影片總長每 10 秒切段,為每段做總覽圖 8. 回報我: - 影片總長 - 影片尺寸 - 抽幀總數 - 幀圖存放路徑 - `audio.wav` 是否成功產出 - `transcript.txt` 是否成功產出 - `transcript.srt` 是否成功產出 - 每段切分結果 9. 後續所有口播時間碼,都一律以 `transcript.srt` 為準 如果本機已經有 Whisper 模型,請直接使用本機模型,不要重新下載。
根據幀圖與 transcript,拆出畫面順序與商業節奏
這一步才開始真正逆向。
你要看的不是「這支影片好像很厲害」。
你要拆的是:
- 主角或主體長什麼樣
- 在哪個場景說話、移動或操作
- 什麼時候切到產品
- 什麼時候切到螢幕操作
- 字幕長怎樣
- 口播在哪句開始 CTA
- 商業推進是先 hook、再教學、再 proof、再 CTA,還是別的順序
這一步拆得越清楚,後面生成的 prompt 就越像規格書,而不是散文。
使用工具 / 程式
- `functions.view_image`:看 contact sheet 與 segment sheet
- `transcript.srt`:對齊口播與時間戳
- `Codex` 或 `Claude Code`:把畫面資訊結構化
- 人工視覺分析:判斷鏡頭切點、字幕樣式、產品露出、CTA 節奏
可直接使用的 Prompt 咒語
請根據抽出的幀圖、segment sheet 與 `transcript.srt`,幫我把影片拆成每 10 秒一組的重建規格。 每一組請先不要直接寫完整生成 prompt。 先整理以下資訊: - 主角外觀 - 場景與背景 - 產品名稱與外觀 - 畫面順序 - 鏡頭距離與角度 - 手勢與表情 - 螢幕操作畫面 - 字幕原文 - 字幕位置與樣式 - 口播對應秒數 - CTA 開始時間 - 商業推進節奏 請務必指出: - 哪些鏡頭是 selfie talking head - 哪些鏡頭是用手機拍 laptop screen - 哪些地方是 product reveal - 哪些地方是 proof - 哪些地方開始進 CTA 輸出格式請先做成結構化筆記,不要寫成散文評論。
把規格筆記組成 ChatGPT storyboard prompt
有了規格筆記,下一步才是組 prompt。
這邊的目標不是讓 ChatGPT Image 隨便幫你畫一張靈感圖。
而是要讓它一次產出一張有 8 到 12 格分鏡的 storyboard 圖,逐格重建這 10 秒內的畫面順序與節奏。
所以 prompt 裡要寫的是:
- 人物長相
- 場景
- 鏡頭順序
- 文字位置
- 節奏
- 產品露出
不是只寫一句「請幫我做分鏡」。
使用工具 / 程式
- `Codex` 或 `Claude Code`:把規格筆記重寫成 storyboard prompt
- 人工 prompt engineering:補齊視覺層級、字幕樣式、分鏡順序
可直接使用的 Prompt 咒語
請把剛剛整理好的 10 秒規格筆記,改寫成一段可以直接貼進 ChatGPT Image 的 storyboard prompt。 要求: - 輸出一張單一 vertical 9:16 storyboard sheet - 一張圖包含 8 到 12 格分鏡 - 逐格重建原影片這 10 秒的順序 - 不要做分析,不要寫心得 - 要完整描述: - 主角長相 - 髮型、膚色、年齡感、穿著 - 場景與背景物件 - 構圖 - 鏡頭距離與角度 - 動作、手勢、表情 - 產品位置 - 原字幕原文 - 字幕位置、大小、排版 - 原畫面順序 - 原影片節奏 - 原商業推進節奏 請直接輸出完整 storyboard prompt,不要加前言,不要加分析標籤。
把同一份規格改寫成 Gemini Omni Flash 的 10 秒影片提示詞
最後一步,才是影片模型。
Gemini Omni Flash 吃的不是分鏡圖邏輯,而是影片生成邏輯。
所以你要把同一份規格筆記,再翻成另一種語言:
- scene description
- camera direction
- action timing
- pacing
- product placement
- on-screen text
- voiceover direction
- CTA timing
- visual details
- negative prompt
同一份資料,換一個輸出層。
這就是模型適配。
使用工具 / 程式
- `Codex` 或 `Claude Code`:把規格筆記轉成 Gemini Omni Flash 影片 prompt
- 人工模型適配判斷:控制段長、時間軸、字幕同步、負面提示
可直接使用的 Prompt 咒語
請把同一份 10 秒規格筆記,改寫成可直接貼進 Gemini Omni Flash 的影片提示詞。 目標: - 生成對應這 10 秒 segment 的影片 - 盡可能重建原影片 - 不創作新版本 請務必包含: - scene description - camera direction - action timing - pacing - product placement - on-screen text - voiceover direction - CTA timing - visual details - negative prompt 還原重點: - 原人物外觀 - 原場景 - 原畫面 - 原鏡頭順序 - 原鏡頭運動 - 原人物動作 - 原產品出現時間點 - 原字幕原文 - 原字幕出現時間點 - 原口播節奏 - 原剪輯節奏 - 原 CTA 出現方式 - 原商業推進節奏 請直接輸出完整 Gemini Omni Flash video prompt,不要寫分析。
// 主要 Prompt 咒語
直接貼給 Claude Code
請把我提供的影片當成唯一規格書。 這次任務不是分析影片,不是改寫影片,也不是創作新版本。 請你做的是逆向工程: - 以原影片為唯一規格書 - 輸出能重建原影片的提示詞 - 每 10 秒切一組 - 每組都輸出: - ChatGPT Image storyboard prompt - Gemini Omni Flash video prompt 請在後續所有步驟中,都優先保留: - 原人物外觀 - 原場景 - 原字幕原文 - 原畫面順序 - 原產品露出 - 原 CTA 出現方式 - 原商業推進節奏 如果你發現自己開始改寫、優化、創作、重設風格,請停下來,回到「原影片是唯一規格書」這個原則。
