什麼是 vpick
vpick 是一個讓創作者和 AI Agent 協作做影片的視覺化工作流畫布。
做影片的痛點
做一支好影片,最花時間的不是創意本身,而是執行:
| 步驟 | 你要做的事 | 花費時間 |
|---|---|---|
| 分鏡設計 | 規劃每個鏡頭的畫面、構圖、描述 | 很多 |
| 畫面生成 | 每個分鏡生成關鍵幀,挑選、調整風格 | 很多 |
| 動畫製作 | 設定首尾幀、時長、轉場,等待生成 | 很多 |
| 創意決策 | 決定風格方向、挑選成果、給修改意見 | 一點點 |
你花了 80% 的時間在重複執行,只有 20% 在做真正重要的創意決定。
vpick 的解法
把那 80% 交給 AI Agent,你只專注在最關鍵的 20%。
你負責的(20%)
- 影片的主題和風格方向
- 看成果,挑出好的
- 告訴 Agent 哪裡要調整
Agent 負責的(80%)
- 根據你的方向規劃分鏡腳本
- 批次生成所有分鏡的關鍵畫面
- 把靜態圖片做成動態影片
- 根據你的回饋立刻重新生成
協作流程
你:「做一支咖啡品牌廣告,6 個分鏡,溫暖色調」
↓
Agent:規劃 6 個分鏡描述
Agent:批次生成 6 張關鍵畫面
Agent:用首尾幀生成 6 支短影片
↓
你:瀏覽成果
你:「第 2 個分鏡換成俯拍角度,第 4 個顏色再暖一點」
↓
Agent:馬上調整,重新生成那兩個鏡頭
↓
你:滿意了,下載所有影片
畫布是你們共同的工作空間。Agent 的每一步你都看得到,你隨時可以喊停、修改、或接手。
支援的生成類型
| 類型 | 模型 | 說明 |
|---|---|---|
| 圖片 | Nano Banana 2、Grok Imagine、Seedream | 分鏡關鍵幀、產品圖、場景圖,幾秒內生成 |
| 影片 | Veo 3.1、Kling 3.0、Grok Video、Runway | 3-15 秒短影片,支援首尾幀控制和音效 |
| 語音 | ElevenLabs V3 | 多種人聲、多語言 TTS |
| 音樂 | Suno V4.5 | AI 音樂生成,支援純音樂和人聲 |
| 口型同步 | Kling Avatar | 靜態人像 + 語音 → 說話影片 |
| 人聲分離 | Demucs | 將音訊分離為人聲和伴奏 |
| 變聲 | ElevenLabs STS | 語音風格轉換 |
| 文字 | Gemini | 分鏡腳本、畫面描述、文案 |
首尾幀控制
這是做影片最實用的功能。你可以:
- 上傳一張產品圖當首幀 → Agent 生成產品旋轉動畫
- 生成兩張不同角度的圖當首尾幀 → Agent 生成鏡頭移動效果
- 只給首幀 → Agent 根據提示詞自由發揮後半段動畫
[首幀圖片] → [影片生成] ← [尾幀圖片]
↓
3-10 秒動畫影片
用說的就能完成
你不需要學任何操作。直接告訴 Agent:
- 規劃分鏡 — 「幫我規劃一支 30 秒的產品廣告,8 個分鏡」
- 生成畫面 — 「把這 8 個分鏡的關鍵畫面都做出來」
- 製作影片 — 「用這些畫面做成影片,每段 5 秒」
- 調整修改 — 「第 3 個分鏡換成暖色調再做一版」
從想法到成片,全程自然語言對話。