什麼是 vpick

vpick 是一個讓創作者和 AI Agent 協作做影片的視覺化工作流畫布。

做影片的痛點

做一支好影片，最花時間的不是創意本身，而是執行：

步驟	你要做的事	花費時間
分鏡設計	規劃每個鏡頭的畫面、構圖、描述	很多
畫面生成	每個分鏡生成關鍵幀，挑選、調整風格	很多
動畫製作	設定首尾幀、時長、轉場，等待生成	很多
創意決策	決定風格方向、挑選成果、給修改意見	一點點

你花了 80% 的時間在重複執行，只有 20% 在做真正重要的創意決定。

vpick 的解法

把那 80% 交給 AI Agent，你只專注在最關鍵的 20%。

你負責的（20%）

影片的主題和風格方向
看成果，挑出好的
告訴 Agent 哪裡要調整

Agent 負責的（80%）

根據你的方向規劃分鏡腳本
批次生成所有分鏡的關鍵畫面
把靜態圖片做成動態影片
根據你的回饋立刻重新生成

協作流程

你：「做一支咖啡品牌廣告，6 個分鏡，溫暖色調」
        ↓
Agent：規劃 6 個分鏡描述
Agent：批次生成 6 張關鍵畫面
Agent：用首尾幀生成 6 支短影片
        ↓
你：瀏覽成果
你：「第 2 個分鏡換成俯拍角度，第 4 個顏色再暖一點」
        ↓
Agent：馬上調整，重新生成那兩個鏡頭
        ↓
你：滿意了，下載所有影片

畫布是你們共同的工作空間。Agent 的每一步你都看得到，你隨時可以喊停、修改、或接手。

支援的生成類型

類型	模型	說明
圖片	Nano Banana 2、Grok Imagine、Seedream	分鏡關鍵幀、產品圖、場景圖，幾秒內生成
影片	Veo 3.1、Kling 3.0、Grok Video、Runway	3-15 秒短影片，支援首尾幀控制和音效
語音	ElevenLabs V3	多種人聲、多語言 TTS
音樂	Suno V4.5	AI 音樂生成，支援純音樂和人聲
口型同步	Kling Avatar	靜態人像 + 語音 → 說話影片
人聲分離	Demucs	將音訊分離為人聲和伴奏
變聲	ElevenLabs STS	語音風格轉換
文字	Gemini	分鏡腳本、畫面描述、文案

首尾幀控制

這是做影片最實用的功能。你可以：

上傳一張產品圖當首幀 → Agent 生成產品旋轉動畫
生成兩張不同角度的圖當首尾幀 → Agent 生成鏡頭移動效果
只給首幀 → Agent 根據提示詞自由發揮後半段動畫

[首幀圖片] → [影片生成] ← [尾幀圖片]
                 ↓
          3-10 秒動畫影片

用說的就能完成

你不需要學任何操作。直接告訴 Agent：

規劃分鏡 — 「幫我規劃一支 30 秒的產品廣告，8 個分鏡」
生成畫面 — 「把這 8 個分鏡的關鍵畫面都做出來」
製作影片 — 「用這些畫面做成影片，每段 5 秒」
調整修改 — 「第 3 個分鏡換成暖色調再做一版」

從想法到成片，全程自然語言對話。