AI 模型介紹

vpick 整合多種 AI 模型,涵蓋圖片、影片、語音與音樂生成。以下是各模型的詳細介紹和比較。


圖片模型

Nano Banana 2(預設)

項目 說明
費用 $0.16 / 張
特色 高品質通用圖片生成,支援多參考圖

Nano Banana 2 是 vpick 的預設圖片模型,在品質、速度和價格之間取得了良好平衡。支援多張參考圖片輸入,適合產品照片、創意設計等場景。

支援的比例:1:1、16:9、9:16、4:3、3:4

Grok Imagine

項目 說明
費用 $0.06 / 次(文生圖 6 張、圖生圖 2 張)
特色 高性價比,一次多張輸出

Grok Imagine 價格實惠,文字生圖一次產出 6 張,圖片生圖(需連接參考圖)一次產出 2 張。適合需要大量變化的創意發想。

Seedream

項目 說明
費用 $0.0825 / 張
特色 超高性價比,支援多種比例

Seedream 是目前最便宜的圖片模型,適合大量生成或預算有限的場景。

支援的比例:1:1、16:9、9:16、4:3、3:4、21:9

兩種解析度


影片模型

Veo 3.1 Fast(預設)

項目 說明
費用 $0.90 / 支(固定 8 秒)
長度 8 秒(固定)
音效 支援
特色 頂級品質,畫面精緻,自帶音效

Veo 3.1 Fast 是 vpick 的預設影片模型,畫面品質極高,且內建音效生成。適合需要高品質展示的場景。

Kling 3.0

項目 說明
費用 Standard $0.30 / 秒, Pro $0.405 / 秒
長度 3-15 秒
模式 Standard(720p)/ Pro(1080p)
音效 支援
特色 穩定、支援首尾幀、支援音效、長度靈活

Kling 3.0 品質穩定,支援 3 到 15 秒的靈活長度設定,以及首幀/尾幀控制和音效生成。Pro 模式輸出 1080p 高畫質。

支援比例:1:1、16:9、9:16

進階功能:MultiShot(多段拍攝)

MultiShot 模式可將一支影片分成 1-5 個片段,每段有獨立的 prompt 和長度(1-12 秒),總長 3-15 秒。開啟 MultiShot 時音效會自動啟用。需要連接起始幀圖片。

進階功能:Elements(角色元素)

Elements 讓你定義角色或物件的參考圖,在 prompt 中用 @元素名稱 引用。每個元素可附 2-50 張參考圖,AI 會根據參考圖保持角色外觀一致。若沒有連接起始幀圖片,會自動使用第一個元素的圖片。

Grok Video

項目 說明
費用 480p: $0.15-$0.45 / 720p: $0.30-$0.60(依長度)
長度 6 秒、10 秒、15 秒
模式 480p / 720p
音效 支援
特色 多種長度、性價比高、支援音效

Grok Video 提供靈活的長度選擇(6/10/15 秒),支援 480p 和 720p 畫質,並支援音效生成。價格適中,適合社群媒體內容。

生成模式:Fun(創意)、Normal(平衡)、Spicy(動態)

Runway Gen4

項目 說明
費用 720p-5s: $0.18 / 720p-10s: $0.45 / 1080p-5s: $0.45
長度 5 秒(720p/1080p)、10 秒(僅 720p)
音效 不支援
特色 影片品質出色,支援 1080p

Runway Gen4 以出色的影片品質著稱,是少數支援 1080p 的模型。5 秒短片最穩定。

支援比例:16:9、4:3、1:1、3:4、9:16


影片模型比較

模型 費用 長度 音效 品質
Veo 3.1 Fast $0.90/支 8s ⭐⭐⭐⭐⭐
Kling 3.0 $0.30-0.405/s 3-15s ⭐⭐⭐⭐
Grok Video $0.15-0.60 6/10/15s ⭐⭐⭐
Runway Gen4 $0.18-0.45 5/10s ⭐⭐⭐⭐

選擇建議


語音模型

ElevenLabs Text-to-Dialogue V3

項目 說明
費用 $0.21 / 次
特色 多種人聲、多語言、高品質 TTS

ElevenLabs V3 是目前最自然的 AI 語音合成模型之一。

可用人聲

名稱 性別 風格
Roger 沉穩清晰
Sarah 自然親切
Brian 活力陽光
Adam 低沉權威
Lily 柔和舒緩
Bill 成熟穩重
Laura 明亮生動
Chris 百搭通用
Jessica 溫暖友善

支援語言:自動偵測、英文、中文、日文、韓文、西班牙文、法文、德文、葡萄牙文、義大利文

參數說明


音樂模型

Suno V4.5

項目 說明
費用 $0.10 / 首
特色 高品質 AI 音樂生成,支援自訂模式

Suno V4.5 能根據文字描述生成完整的音樂作品,品質堪比專業製作。

模式

選項


口型同步模型

Kling Avatar

項目 說明
費用 Standard $0.12/秒、Pro $0.24/秒
特色 將靜態人像照片變成說話影片

Kling Avatar 能將一張人物照片和一段語音合成為「說話影片」,人物的嘴型會精準對應語音內容。

使用方式

  1. 連接一張人物照片(image-in)
  2. 連接一段語音(audio-in)
  3. 執行口型同步

最佳實踐


價格總覽

圖片

模型 費用 產出
Nano Banana 2 $0.16 / 次 1 張
Grok Imagine $0.06 / 次 6 張(文生圖)/ 2 張(圖生圖)
Seedream $0.0825 / 次 1 張(2K)
Seedream HD $0.0825 / 次 1 張(3K)

影片

模型 費用
Veo 3.1 Fast $0.90 / 支(8s)
Kling 3.0 $0.30~$0.405 / 秒(3-15s)
Grok Video $0.15-$0.60 / 支(6/10/15s)
Runway Gen4 $0.18-$0.45 / 支(5/10s)

聲音

模型 費用
ElevenLabs V3 $0.21 / 次
Suno V4.5 $0.10 / 首
Kling Avatar (Standard) $0.12 / 秒
Kling Avatar (Pro) $0.24 / 秒