認識節點
節點是 vpick 畫布上的基本元件,每個節點負責一件事。
節點類型一覽
| 節點 | 做什麼 |
|---|---|
| 文字 | 儲存一段文字 |
| AI 助手 | 呼叫 AI 產生文案 |
| 圖片生成 | 用 AI 生成圖片 |
| 影片生成 | 用 AI 生成短影片 |
| 語音生成 | 用 AI 生成語音(Voice Over) |
| 音樂生成 | 用 AI 生成音樂(BGM) |
| 口型同步 | 讓照片中的人跟著語音說話 |
| 合併 | 將多段影片合併為一段 |
| 清單 | 儲存多筆資料,用於批次處理 |
| 上傳 | 上傳自己的圖片或檔案 |
| 人聲分離 | 將音訊分離為人聲、伴奏、原始音訊 |
| 變聲器 | 用 ElevenLabs 轉換語音風格 |
| 音訊混合 | 將多段音訊混合為一段 |
| 群組 | 將多個節點視覺分組 |
AI 助手
輸入提示詞,AI 會幫你生成文字內容。
常見用法:
- 產生產品描述
- 列出創意點子
- 寫社群貼文文案
可以開啟「匯出為清單」,把 AI 回覆自動拆成多個項目,方便餵給圖片生成器做批次處理。
圖片生成
支援多種模型(Nano Banana 2、Grok Imagine、Seedream 等),根據文字描述生成圖片。
- 可選比例:1:1(正方形)、16:9(橫幅)、9:16(直幅)等
- 支援多張參考圖片輸入
- 接上清單就能一次生成多張
- 各模型詳細比較請見 AI 模型介紹
影片生成
支援多種模型(Veo 3.1、Kling 3.0、Grok Video、Runway 等),根據文字描述生成短影片。
- 長度依模型不同,最短 3 秒、最長 15 秒
- 部分模型支援音效生成(Kling、Grok)
- 支援首尾幀:上傳圖片當作影片的起始畫面或結尾畫面
- 各模型詳細比較請見 AI 模型介紹
語音生成(Voice Over)
使用 ElevenLabs V3 模型,將文字轉為語音。
- 9 種人聲可選(Roger、Sarah、Brian 等),每種都有試聽 Demo
- 支援 10 種語言
- 可調整 Stability(穩定度):影響語音的情感表現力
- 輸出音訊可連接到「合併」節點疊加到影片上,或連接到「口型同步」節點
音樂生成
使用 Suno V4.5 模型,用文字描述生成完整音樂。
- 簡單模式:輸入描述(如「一首輕快的爵士鋼琴曲」),AI 自動生成
- 自訂模式:可指定音樂風格(style)和歌曲標題(title)
- 純音樂:開啟 Instrumental 模式,生成無人聲背景音樂
- 適合作為影片的背景音樂,連接到「合併」節點的 audio-in 端口
口型同步(Lipsync)
使用 Kling Avatar 模型,將靜態人像照片變成說話影片。
- 連接一張人物照片(image-in)+ 一段語音(audio-in)
- AI 會讓照片中的人嘴型同步語音
- 兩種模式:Standard($0.12/秒)、Pro($0.24/秒)
- 最佳效果:使用正面、清晰、嘴巴閉合的人物照
合併(Combine)
將多段影片按順序合併為一段完整影片。
- 連接多個影片生成 / 口型同步 / 上傳節點到
videos-in端口 - 可選擇性連接音訊(audio-in)作為背景音樂
- 音訊混合:若影片本身有聲音,會與背景音樂混合(非覆蓋)
- 自動處理不同解析度的影片(重新編碼為統一格式)
清單
批次生成的關鍵節點。把多筆資料存在清單裡,接到圖片或影片生成器,就會自動為每一筆資料各生成一個作品。
例如清單有 5 個項目,接到圖片生成器,就會產出 5 張圖。
上傳
把自己電腦裡的圖片上傳到畫布。常見用途:
- 當作圖片生成的參考圖
- 當作影片的首幀(起始畫面)或尾幀(結尾畫面)
- 作為口型同步的人物照片
人聲分離(Vocal Separator)
使用 Demucs 模型,將音訊分離為三個獨立的音軌。
- 輸入:影片(video-in)或音訊(audio-in)
- 輸出:人聲(vocals-out)、伴奏(accompaniment-out)、原始音訊(origin-out)
- 分離後會自動建立 3 個 Upload 節點存放結果
- 適合需要去除背景音樂或提取人聲的場景
變聲器(Voice Changer)
使用 ElevenLabs Speech-to-Speech 模型,將語音轉換為另一種聲音風格。
- 輸入:音訊(audio-in)
- 輸出:轉換後的音訊(audio-out)
- 使用你自己的 ElevenLabs API Key(在 Settings → ElevenLabs 設定)
- 可選擇內建人聲或自行上傳聲音進行克隆
- 支援去除背景噪音選項
- 不消耗 vpick 額度(使用你自己的 ElevenLabs 額度)
音訊混合(Audio Combine)
將多段音訊混合為一段。
- 連接多個音訊來源到 audio-in 端口
- 輸出混合後的音訊(audio-out)
- 適合將人聲和背景音樂混合在一起
群組
將多個節點視覺分組,方便管理。
- 選取多個節點後按 Ctrl+G 建立群組
- 拖曳群組會一起移動所有成員節點
- 可自訂群組顏色和標籤
連線
節點之間用線連接,資料會沿著線流動:
[AI 助手] → [清單] → [圖片生成]
這樣 AI 產生的文字會進入清單,清單的每個項目再分別生成一張圖。
進階範例:口型同步影片
[上傳(人物照片)] → image-in → [口型同步]
[語音生成] → audio-in → [口型同步]
[口型同步] → videos-in → [合併]
[音樂生成] → audio-in → [合併]
這個流程會:
- 語音生成節點產生語音
- 口型同步節點讓照片中的人說話
- 音樂生成節點產生背景音樂
- 合併節點將口型同步影片 + 背景音樂混合成最終影片