認識節點

節點是 vpick 畫布上的基本元件，每個節點負責一件事。

節點類型一覽

節點	做什麼
文字	儲存一段文字
AI 助手	呼叫 AI 產生文案
圖片生成	用 AI 生成圖片
影片生成	用 AI 生成短影片
語音生成	用 AI 生成語音（Voice Over）
音樂生成	用 AI 生成音樂（BGM）
口型同步	讓照片中的人跟著語音說話
合併	將多段影片合併為一段
清單	儲存多筆資料，用於批次處理
上傳	上傳自己的圖片或檔案
人聲分離	將音訊分離為人聲、伴奏、原始音訊
變聲器	用 ElevenLabs 轉換語音風格
音訊混合	將多段音訊混合為一段
群組	將多個節點視覺分組

AI 助手

輸入提示詞，AI 會幫你生成文字內容。

常見用法：

產生產品描述
列出創意點子
寫社群貼文文案

可以開啟「匯出為清單」，把 AI 回覆自動拆成多個項目，方便餵給圖片生成器做批次處理。

圖片生成

支援多種模型（Nano Banana 2、Grok Imagine、Seedream 等），根據文字描述生成圖片。

可選比例：1:1（正方形）、16:9（橫幅）、9:16（直幅）等
支援多張參考圖片輸入
接上清單就能一次生成多張
各模型詳細比較請見 AI 模型介紹

影片生成

支援多種模型（Veo 3.1、Kling 3.0、Grok Video、Runway 等），根據文字描述生成短影片。

長度依模型不同，最短 3 秒、最長 15 秒
部分模型支援音效生成（Kling、Grok）
支援首尾幀：上傳圖片當作影片的起始畫面或結尾畫面
各模型詳細比較請見 AI 模型介紹

語音生成（Voice Over）

使用 ElevenLabs V3 模型，將文字轉為語音。

9 種人聲可選（Roger、Sarah、Brian 等），每種都有試聽 Demo
支援 10 種語言
可調整 Stability（穩定度）：影響語音的情感表現力
輸出音訊可連接到「合併」節點疊加到影片上，或連接到「口型同步」節點

音樂生成

使用 Suno V4.5 模型，用文字描述生成完整音樂。

簡單模式：輸入描述（如「一首輕快的爵士鋼琴曲」），AI 自動生成
自訂模式：可指定音樂風格（style）和歌曲標題（title）
純音樂：開啟 Instrumental 模式，生成無人聲背景音樂
適合作為影片的背景音樂，連接到「合併」節點的 audio-in 端口

口型同步（Lipsync）

使用 Kling Avatar 模型，將靜態人像照片變成說話影片。

連接一張人物照片（image-in）+ 一段語音（audio-in）
AI 會讓照片中的人嘴型同步語音
兩種模式：Standard（$0.12/秒）、Pro（$0.24/秒）
最佳效果：使用正面、清晰、嘴巴閉合的人物照

合併（Combine）

將多段影片按順序合併為一段完整影片。

連接多個影片生成 / 口型同步 / 上傳節點到 videos-in 端口
可選擇性連接音訊（audio-in）作為背景音樂
音訊混合：若影片本身有聲音，會與背景音樂混合（非覆蓋）
自動處理不同解析度的影片（重新編碼為統一格式）

清單

批次生成的關鍵節點。把多筆資料存在清單裡，接到圖片或影片生成器，就會自動為每一筆資料各生成一個作品。

例如清單有 5 個項目，接到圖片生成器，就會產出 5 張圖。

上傳

把自己電腦裡的圖片上傳到畫布。常見用途：

當作圖片生成的參考圖
當作影片的首幀（起始畫面）或尾幀（結尾畫面）
作為口型同步的人物照片

人聲分離（Vocal Separator）

使用 Demucs 模型，將音訊分離為三個獨立的音軌。

輸入：影片（video-in）或音訊（audio-in）
輸出：人聲（vocals-out）、伴奏（accompaniment-out）、原始音訊（origin-out）
分離後會自動建立 3 個 Upload 節點存放結果
適合需要去除背景音樂或提取人聲的場景

變聲器（Voice Changer）

使用 ElevenLabs Speech-to-Speech 模型，將語音轉換為另一種聲音風格。

輸入：音訊（audio-in）
輸出：轉換後的音訊（audio-out）
使用你自己的 ElevenLabs API Key（在 Settings → ElevenLabs 設定）
可選擇內建人聲或自行上傳聲音進行克隆
支援去除背景噪音選項
不消耗 vpick 額度（使用你自己的 ElevenLabs 額度）

音訊混合（Audio Combine）

將多段音訊混合為一段。

連接多個音訊來源到 audio-in 端口
輸出混合後的音訊（audio-out）
適合將人聲和背景音樂混合在一起

群組

將多個節點視覺分組，方便管理。

選取多個節點後按 Ctrl+G 建立群組
拖曳群組會一起移動所有成員節點
可自訂群組顏色和標籤

連線

節點之間用線連接，資料會沿著線流動：

[AI 助手] → [清單] → [圖片生成]

這樣 AI 產生的文字會進入清單，清單的每個項目再分別生成一張圖。

進階範例：口型同步影片

[上傳（人物照片）] → image-in → [口型同步]
[語音生成] → audio-in → [口型同步]
[口型同步] → videos-in → [合併]
[音樂生成] → audio-in → [合併]

這個流程會：

語音生成節點產生語音
口型同步節點讓照片中的人說話
音樂生成節點產生背景音樂
合併節點將口型同步影片 + 背景音樂混合成最終影片