AI 模型介紹
vpick 整合多種 AI 模型,涵蓋圖片、影片、語音與音樂生成。以下是各模型的詳細介紹和比較。
圖片模型
Nano Banana 2(預設)
| 項目 | 說明 |
|---|---|
| 費用 | $0.16 / 張 |
| 特色 | 高品質通用圖片生成,支援多參考圖 |
Nano Banana 2 是 vpick 的預設圖片模型,在品質、速度和價格之間取得了良好平衡。支援多張參考圖片輸入,適合產品照片、創意設計等場景。
支援的比例:1:1、16:9、9:16、4:3、3:4
Grok Imagine
| 項目 | 說明 |
|---|---|
| 費用 | $0.06 / 次(文生圖 6 張、圖生圖 2 張) |
| 特色 | 高性價比,一次多張輸出 |
Grok Imagine 價格實惠,文字生圖一次產出 6 張,圖片生圖(需連接參考圖)一次產出 2 張。適合需要大量變化的創意發想。
Seedream
| 項目 | 說明 |
|---|---|
| 費用 | $0.0825 / 張 |
| 特色 | 超高性價比,支援多種比例 |
Seedream 是目前最便宜的圖片模型,適合大量生成或預算有限的場景。
支援的比例:1:1、16:9、9:16、4:3、3:4、21:9
兩種解析度:
- Seedream(2K):標準解析度
- Seedream HD(3K):高解析度
影片模型
Veo 3.1 Fast(預設)
| 項目 | 說明 |
|---|---|
| 費用 | $0.90 / 支(固定 8 秒) |
| 長度 | 8 秒(固定) |
| 音效 | 支援 |
| 特色 | 頂級品質,畫面精緻,自帶音效 |
Veo 3.1 Fast 是 vpick 的預設影片模型,畫面品質極高,且內建音效生成。適合需要高品質展示的場景。
Kling 3.0
| 項目 | 說明 |
|---|---|
| 費用 | Standard $0.30 / 秒, Pro $0.405 / 秒 |
| 長度 | 3-15 秒 |
| 模式 | Standard(720p)/ Pro(1080p) |
| 音效 | 支援 |
| 特色 | 穩定、支援首尾幀、支援音效、長度靈活 |
Kling 3.0 品質穩定,支援 3 到 15 秒的靈活長度設定,以及首幀/尾幀控制和音效生成。Pro 模式輸出 1080p 高畫質。
支援比例:1:1、16:9、9:16
進階功能:MultiShot(多段拍攝)
MultiShot 模式可將一支影片分成 1-5 個片段,每段有獨立的 prompt 和長度(1-12 秒),總長 3-15 秒。開啟 MultiShot 時音效會自動啟用。需要連接起始幀圖片。
進階功能:Elements(角色元素)
Elements 讓你定義角色或物件的參考圖,在 prompt 中用 @元素名稱 引用。每個元素可附 2-50 張參考圖,AI 會根據參考圖保持角色外觀一致。若沒有連接起始幀圖片,會自動使用第一個元素的圖片。
Grok Video
| 項目 | 說明 |
|---|---|
| 費用 | 480p: $0.15-$0.45 / 720p: $0.30-$0.60(依長度) |
| 長度 | 6 秒、10 秒、15 秒 |
| 模式 | 480p / 720p |
| 音效 | 支援 |
| 特色 | 多種長度、性價比高、支援音效 |
Grok Video 提供靈活的長度選擇(6/10/15 秒),支援 480p 和 720p 畫質,並支援音效生成。價格適中,適合社群媒體內容。
生成模式:Fun(創意)、Normal(平衡)、Spicy(動態)
Runway Gen4
| 項目 | 說明 |
|---|---|
| 費用 | 720p-5s: $0.18 / 720p-10s: $0.45 / 1080p-5s: $0.45 |
| 長度 | 5 秒(720p/1080p)、10 秒(僅 720p) |
| 音效 | 不支援 |
| 特色 | 影片品質出色,支援 1080p |
Runway Gen4 以出色的影片品質著稱,是少數支援 1080p 的模型。5 秒短片最穩定。
支援比例:16:9、4:3、1:1、3:4、9:16
影片模型比較
| 模型 | 費用 | 長度 | 音效 | 品質 |
|---|---|---|---|---|
| Veo 3.1 Fast | $0.90/支 | 8s | ✅ | ⭐⭐⭐⭐⭐ |
| Kling 3.0 | $0.30-0.405/s | 3-15s | ✅ | ⭐⭐⭐⭐ |
| Grok Video | $0.15-0.60 | 6/10/15s | ✅ | ⭐⭐⭐ |
| Runway Gen4 | $0.18-0.45 | 5/10s | ❌ | ⭐⭐⭐⭐ |
選擇建議:
- 追求品質:Veo 3.1 Fast(預設)
- 需要音效:Veo 3.1 Fast、Kling 3.0 或 Grok Video
- 追求性價比:Grok Video(480p-6s $0.15)或 Runway Gen4(720p-5s $0.18)
- 需要長影片:Kling 3.0(最長 15 秒)或 Grok Video(最長 15 秒)
- 高解析度:Kling 3.0 Pro 或 Runway Gen4(1080p)
語音模型
ElevenLabs Text-to-Dialogue V3
| 項目 | 說明 |
|---|---|
| 費用 | $0.21 / 次 |
| 特色 | 多種人聲、多語言、高品質 TTS |
ElevenLabs V3 是目前最自然的 AI 語音合成模型之一。
可用人聲:
| 名稱 | 性別 | 風格 |
|---|---|---|
| Roger | 男 | 沉穩清晰 |
| Sarah | 女 | 自然親切 |
| Brian | 男 | 活力陽光 |
| Adam | 男 | 低沉權威 |
| Lily | 女 | 柔和舒緩 |
| Bill | 男 | 成熟穩重 |
| Laura | 女 | 明亮生動 |
| Chris | 男 | 百搭通用 |
| Jessica | 女 | 溫暖友善 |
支援語言:自動偵測、英文、中文、日文、韓文、西班牙文、法文、德文、葡萄牙文、義大利文
參數說明:
- Stability(穩定度):0.0-1.0,值越高聲音越穩定一致,值越低越有表現力和情感變化
音樂模型
Suno V4.5
| 項目 | 說明 |
|---|---|
| 費用 | $0.10 / 首 |
| 特色 | 高品質 AI 音樂生成,支援自訂模式 |
Suno V4.5 能根據文字描述生成完整的音樂作品,品質堪比專業製作。
模式:
- 簡單模式:輸入文字描述,Suno 自動決定風格和歌詞
- 自訂模式(Custom Mode):可指定音樂風格(style)和歌曲標題(title)
選項:
- Instrumental(純音樂):開啟後生成無人聲的純音樂,適合作為背景音樂
- Vocal Gender(人聲性別):可選 Auto / Male / Female
口型同步模型
Kling Avatar
| 項目 | 說明 |
|---|---|
| 費用 | Standard $0.12/秒、Pro $0.24/秒 |
| 特色 | 將靜態人像照片變成說話影片 |
Kling Avatar 能將一張人物照片和一段語音合成為「說話影片」,人物的嘴型會精準對應語音內容。
使用方式:
- 連接一張人物照片(image-in)
- 連接一段語音(audio-in)
- 執行口型同步
最佳實踐:
- 使用正面、清晰的人物照片
- 照片中人物嘴巴最好是閉合狀態
- 語音品質越好,口型同步效果越好
價格總覽
圖片
| 模型 | 費用 | 產出 |
|---|---|---|
| Nano Banana 2 | $0.16 / 次 | 1 張 |
| Grok Imagine | $0.06 / 次 | 6 張(文生圖)/ 2 張(圖生圖) |
| Seedream | $0.0825 / 次 | 1 張(2K) |
| Seedream HD | $0.0825 / 次 | 1 張(3K) |
影片
| 模型 | 費用 |
|---|---|
| Veo 3.1 Fast | $0.90 / 支(8s) |
| Kling 3.0 | $0.30~$0.405 / 秒(3-15s) |
| Grok Video | $0.15-$0.60 / 支(6/10/15s) |
| Runway Gen4 | $0.18-$0.45 / 支(5/10s) |
聲音
| 模型 | 費用 |
|---|---|
| ElevenLabs V3 | $0.21 / 次 |
| Suno V4.5 | $0.10 / 首 |
| Kling Avatar (Standard) | $0.12 / 秒 |
| Kling Avatar (Pro) | $0.24 / 秒 |