AI 模型介紹

vpick 整合多種 AI 模型，涵蓋圖片、影片、語音與音樂生成。以下是各模型的詳細介紹和比較。

圖片模型

Nano Banana 2（預設）

項目	說明
費用	$0.16 / 張
特色	高品質通用圖片生成，支援多參考圖

Nano Banana 2 是 vpick 的預設圖片模型，在品質、速度和價格之間取得了良好平衡。支援多張參考圖片輸入，適合產品照片、創意設計等場景。

支援的比例：1:1、16:9、9:16、4:3、3:4

Grok Imagine

項目	說明
費用	$0.06 / 次（文生圖 6 張、圖生圖 2 張）
特色	高性價比，一次多張輸出

Grok Imagine 價格實惠，文字生圖一次產出 6 張，圖片生圖（需連接參考圖）一次產出 2 張。適合需要大量變化的創意發想。

Seedream

項目	說明
費用	$0.0825 / 張
特色	超高性價比，支援多種比例

Seedream 是目前最便宜的圖片模型，適合大量生成或預算有限的場景。

支援的比例：1:1、16:9、9:16、4:3、3:4、21:9

兩種解析度：

Seedream（2K）：標準解析度
Seedream HD（3K）：高解析度

GPT Image 2

項目	說明
費用	$0.09 / 張（1K）、$0.15 / 張（2K）、$0.24 / 張（4K）
特色	OpenAI 最新多模態模型，文字排版與品牌 logo 表現出色

GPT Image 2 是 OpenAI 推出的多模態圖片模型，在中文 prompt、文字排版（海報文字）、品牌 logo 等場景特別穩定。可依需求選擇 1K / 2K / 4K 解析度，價格隨解析度遞增。支援文生圖（text-to-image）與圖生圖（image-to-image），會根據連接的參考圖自動切換模式。

支援的比例：1:1、5:4、9:16、21:9、16:9、4:3、3:2、4:5、3:4、2:3

最佳實踐：海報、產品圖、需要清晰文字排版的素材建議用 GPT Image 2；一般通用圖片仍以 Nano Banana 2 為佳。

影片模型

Veo 3.1 Fast（預設）

項目	說明
費用	$0.90 / 支（固定 8 秒）
長度	8 秒（固定）
音效	支援
特色	頂級品質，畫面精緻，自帶音效

Veo 3.1 Fast 是 vpick 的預設影片模型，畫面品質極高，且內建音效生成。適合需要高品質展示的場景。

Seedance 2.0

項目	說明
費用	480p: $0.285 / 秒、720p: $0.615 / 秒、1080p: $1.53 / 秒
長度	4、8、12、15 秒
模式	480p / 720p / 1080p
音效	支援
特色	字節跳動最新模型，多模態參考、首尾幀控制

Seedance 2.0 是字節跳動推出的影片模型，支援豐富的輸入模式：可用首幀/尾幀控制動作起點，或改用多模態參考（最多 9 張參考圖、3 段參考音訊、3 段參考影片）讓 AI 學習風格與動態。

支援的比例：1:1、4:3、3:4、16:9、9:16、21:9

輸入模式（兩種模式互斥）：

首尾幀模式：連接 start-image-in / end-image-in，明確控制動作起點與終點
多模態參考模式：連接 references-in（最多 9 張）、audio-ref-in（最多 3 段）、video-ref-in（最多 3 段）—— 不能同時連接首尾幀

Kling 3.0

項目	說明
費用	Standard $0.30 / 秒, Pro $0.405 / 秒
長度	3-15 秒
模式	Standard（720p）/ Pro（1080p）
音效	支援
特色	穩定、支援首尾幀、支援音效、長度靈活

Kling 3.0 品質穩定，支援 3 到 15 秒的靈活長度設定，以及首幀/尾幀控制和音效生成。Pro 模式輸出 1080p 高畫質。

支援比例：1:1、16:9、9:16

進階功能：MultiShot（多段拍攝）

MultiShot 模式可將一支影片分成 1-5 個片段，每段有獨立的 prompt 和長度（1-12 秒），總長 3-15 秒。開啟 MultiShot 時音效會自動啟用。需要連接起始幀圖片。

進階功能：Elements（角色元素）

Elements 讓你定義角色或物件的參考圖，在 prompt 中用 @元素名稱 引用。每個元素可附 2-50 張參考圖，AI 會根據參考圖保持角色外觀一致。若沒有連接起始幀圖片，會自動使用第一個元素的圖片。

Grok Video

項目	說明
費用	480p: $0.15-$0.45 / 720p: $0.30-$0.60（依長度）
長度	6 秒、10 秒、15 秒
模式	480p / 720p
音效	支援
特色	多種長度、性價比高、支援音效

Grok Video 提供靈活的長度選擇（6/10/15 秒），支援 480p 和 720p 畫質，並支援音效生成。價格適中，適合社群媒體內容。

生成模式：Fun（創意）、Normal（平衡）、Spicy（動態）

Runway Gen4

項目	說明
費用	720p-5s: $0.18 / 720p-10s: $0.45 / 1080p-5s: $0.45
長度	5 秒（720p/1080p）、10 秒（僅 720p）
音效	不支援
特色	影片品質出色，支援 1080p

Runway Gen4 以出色的影片品質著稱，是少數支援 1080p 的模型。5 秒短片最穩定。

支援比例：16:9、4:3、1:1、3:4、9:16

影片模型比較

模型	費用	長度	音效	品質
Veo 3.1 Fast	$0.90/支	8s	✅	⭐⭐⭐⭐⭐
Seedance 2.0	$0.285-1.53/s	4/8/12/15s	✅	⭐⭐⭐⭐
Kling 3.0	$0.30-0.405/s	3-15s	✅	⭐⭐⭐⭐
Grok Video	$0.15-0.60	6/10/15s	✅	⭐⭐⭐
Runway Gen4	$0.18-0.45	5/10s	❌	⭐⭐⭐⭐

選擇建議：

追求品質：Veo 3.1 Fast（預設）
需要音效：Veo 3.1 Fast、Seedance 2.0、Kling 3.0 或 Grok Video
追求性價比：Grok Video（480p-6s $0.15）或 Runway Gen4（720p-5s $0.18）
需要長影片：Seedance 2.0（最長 15 秒）、Kling 3.0（最長 15 秒）或 Grok Video（最長 15 秒）
高解析度：Seedance 2.0 1080p、Kling 3.0 Pro 或 Runway Gen4（1080p）
多模態參考：Seedance 2.0（可同時連接參考圖、參考音訊、參考影片）

語音模型

ElevenLabs Text-to-Dialogue V3

項目	說明
費用	$0.21 / 次
特色	多種人聲、多語言、高品質 TTS

ElevenLabs V3 是目前最自然的 AI 語音合成模型之一。

可用人聲：

名稱	性別	風格
Roger	男	沉穩清晰
Sarah	女	自然親切
Brian	男	活力陽光
Adam	男	低沉權威
Lily	女	柔和舒緩
Bill	男	成熟穩重
Laura	女	明亮生動
Chris	男	百搭通用
Jessica	女	溫暖友善

支援語言：自動偵測、英文、中文、日文、韓文、西班牙文、法文、德文、葡萄牙文、義大利文

參數說明：

Stability（穩定度）：0.0-1.0，值越高聲音越穩定一致，值越低越有表現力和情感變化

音樂模型

Suno V4.5

項目	說明
費用	$0.10 / 首
特色	高品質 AI 音樂生成，支援自訂模式

Suno V4.5 能根據文字描述生成完整的音樂作品，品質堪比專業製作。

模式：

簡單模式：輸入文字描述，Suno 自動決定風格和歌詞
自訂模式（Custom Mode）：可指定音樂風格（style）和歌曲標題（title）

選項：

Instrumental（純音樂）：開啟後生成無人聲的純音樂，適合作為背景音樂
Vocal Gender（人聲性別）：可選 Auto / Male / Female

口型同步模型

Kling Avatar

項目	說明
費用	Standard $0.12/秒、Pro $0.24/秒
特色	將靜態人像照片變成說話影片

Kling Avatar 能將一張人物照片和一段語音合成為「說話影片」，人物的嘴型會精準對應語音內容。

使用方式：

連接一張人物照片（image-in）
連接一段語音（audio-in）
執行口型同步

最佳實踐：

使用正面、清晰的人物照片
照片中人物嘴巴最好是閉合狀態
語音品質越好，口型同步效果越好

價格總覽

圖片

模型	費用	產出
Nano Banana 2	$0.16 / 次	1 張
Grok Imagine	$0.06 / 次	6 張（文生圖）/ 2 張（圖生圖）
Seedream	$0.0825 / 次	1 張（2K）
Seedream HD	$0.0825 / 次	1 張（3K）
GPT Image 2	$0.09 / $0.15 / $0.24	1 張（1K / 2K / 4K）

影片

模型	費用
Veo 3.1 Fast	$0.90 / 支（8s）
Seedance 2.0	$0.285 / $0.615 / $1.53 / 秒（480p / 720p / 1080p、4-15s）
Kling 3.0	$0.30~$0.405 / 秒（3-15s）
Grok Video	$0.15-$0.60 / 支（6/10/15s）
Runway Gen4	$0.18-$0.45 / 支（5/10s）

聲音

模型	費用
ElevenLabs V3	$0.21 / 次
Suno V4.5	$0.10 / 首
Kling Avatar (Standard)	$0.12 / 秒
Kling Avatar (Pro)	$0.24 / 秒