Seedance 2.0 多模態輸入能力全面解析

若你仍用「純文字提示詞 + 反覆抽卡」做 AI 影片，可能已錯過 Seedance 2.0 的核心升級。Seedance 2.0 採用統一的多模態音視訊聯合生成架構，支援文字、圖片、音訊、影片四種模態混合輸入，最多可同時上傳 12 個參考檔（9 張圖片 + 3 段影片 + 3 段音訊 + 自然語言指令）。對需控制角色形象、運鏡節奏與音畫同步的創作者，多模態輸入直接決定成片品質。

本文依 Seedance 教程 寫法，拆解四種模態輸入、@ 引用系統與常見落地場景，方便 Seedance 中文版 用戶快速上手。

一、為什麼多模態輸入成了剛需

過去許多 AI 影片工具只接受文字。描述越細，模型猜得越多——角色長相、鏡頭運動、配樂節奏全靠運氣。實務上創作者常已有定妝照、參考片段、BGM 或旁白，卻無法直接餵給模型，只能反覆改 prompt 碰機率。

Seedance 2.0 把四種模態放在同一套生成鏈路裡：模型可同時讀取文字語意、圖片視覺特徵、影片運鏡與動作、音訊節奏與音色，再依指令組合成一段帶原生音軌的影片。相比 1.5 版本，複雜互動與運動場景的可用率更高，也更貼近廣告、短劇、社群等工業級需求。

二、四種模態輸入能力詳解

2.1 文字輸入：把創作意圖說清楚

文字仍是最基礎的輸入方式，但 Seedance 2.0 對長指令、分鏡描述與風格關鍵字的理解明顯更強。你可以：

寫完整的場景敘事（主體、環境、動作、鏡頭、風格）；
用分鏡式描述指定多鏡頭結構；
配合 @ 引用，告訴模型每個素材該起什麼作用。

示例：「@Image1 作為主角面部參考，@Video1 參考跟拍運鏡，@Audio1 作為背景音樂，主角在霓虹燈夜市中穿行，鏡頭從背後跟隨，最後轉身面向鏡頭微笑。」

2.2 圖片輸入：鎖定角色與視覺風格

圖片是最常用的參考模態。上傳定妝照、場景板、品牌 VI 或風格樣圖後，模型能提取面部特徵、服裝紋理、色調與構圖，並在多鏡頭中盡量保持一致。

典型用途	說明
角色定妝	1:1 複刻面部與服裝，跨鏡頭保持形象穩定
場景參考	固定環境風格、光影與色調
風格樣圖	統一廣告、電商物料的視覺調性
首幀控制	指定影片開場畫面構圖

最多支援 9 張圖片，常見格式包括 JPG、PNG、WebP。

2.3 音訊輸入：節奏、對白與氛圍

Seedance 2.0 支援上傳音訊素材，也支援在生成流程中輸出原生音軌。音訊輸入主要用於：

背景音樂：模型參考 BGM 節奏做剪輯與畫面起伏；
旁白/對白：驅動口型同步（支援普通話、粵語、英語等多種語言）；
環境音效：強化場景氛圍。

最多 3 段音訊，總長建議控制在 15 秒以內，格式支援 MP3、WAV、M4A 等。

2.4 影片輸入：運鏡與動作的可視化參考

上傳參考影片後，模型可以提取鏡頭運動、人物動作、節奏和特效風格，而不必用大量文字去「翻譯」畫面。典型場景包括：

參考某段跟拍、環繞、推拉鏡頭；
複刻舞蹈或動作編排；
基於已有片段補全缺失場景或延長敘事。

最多 3 段影片，單段與總時長均有限制（通常 ≤ 15 秒），格式支援 MP4、MOV。

三、@ 引用系統：為每個素材分配任務

Seedance 2.0 的 @ 引用 是多模態輸入真正好用的關鍵。上傳素材後，在 prompt 裡用 @Image1、@Video1、@Audio1 等標記，明確每個檔案的職責，避免模型自行猜測。

引用標記	常見用途
@Image1	角色面部 / 服裝 / 場景
@Video1	運鏡方式 / 動作節奏
@Audio1	背景音樂 / 旁白口型
文字指令	敘事主線、風格、時長

組合示例（圖片 + 影片 + 音訊）：

全程採用 @Video1 的第一人稱構圖。
@Audio1 作為背景音樂，剪輯與鼓點對齊。
@Image1 中的角色走過霓虹燈夜市，鏡頭從背後跟隨，
在 @Video1 的運動風格下停步、轉身、微笑。
電影感夜景，飽和色彩，淺景深。

每個 @ 都有明確分工，生成結果的可控性會高很多。

四、核心規格一覽

項目	規格
輸入模態	文字 + 圖片 + 影片 + 音訊
參考檔上限	共 12 個（9 圖 + 3 影片 + 3 音訊）
影片時長	4–15 秒
解析度	480p / 720p / 1080p（Pro 模式支援 2K）
寬高比	16:9、9:16、1:1、4:3、3:4、21:9
音訊	原生音畫同步，多語言口型
幀率	24fps

五、三類常見落地場景

5.1 短影片與社群內容

營運團隊常需要同一 IP、同一視覺風格批量出片。用圖片鎖定角色，用影片參考固定鏡頭語言，用文字寫不同腳本，可以在同一套資產下快速迭代，減少「抽卡」次數。

5.2 品牌行銷物料

品牌對 VI 一致性要求高。上傳 LOGO、主視覺和風格板，配合文字指令生成系列短影片或廣告片段，比純文字生成更容易保持調性統一。

5.3 教育與知識類影片

上傳課程旁白或講解音訊，模型可生成匹配口型的畫面；再補場景參考圖，就能較低成本產出多模態教學內容。

六、上手建議：四步工作流

先定目標：明確成片類型（廣告 / 短劇 / 社群）、時長和畫幅。
備齊參考：角色圖、運鏡參考、BGM 按需準備，不必每次塞滿 12 個檔案。
寫 prompt + @：先敘事，再逐個綁定素材職責，避免矛盾指令。
小步迭代：先生成 4–6 秒驗證角色與運鏡，滿意後再加長到 10–15 秒。

常見問題

Q：四種模態必須同時用嗎？
A：不必。可以純文字生成，也可以只加 1–2 張圖片。多模態是按需組合，不是硬性要求。

Q：@ 引用序號怎麼對應？
A：按上傳順序，第一張圖為 @Image1，第一段影片為 @Video1，以此類推。建議在 prompt 裡寫清楚，不要跳號。

Q：圖片參考能保證 100% 一致嗎？
A：多鏡頭一致性已明顯優於純文字方案，但在複雜多人、大角度轉面等場景仍可能有偏差，建議固定測試集迭代。

Q：音訊上傳後會直接出現在成片裡嗎？
A：可以。模型既參考音訊節奏，也支援原生生成對白、音效與配樂，具體取決於你的指令與模式設定。

想親自驗證多模態輸入的效果，可以直接在站點裡上傳參考素材試一輪。下面入口進入 Seedance 2.0 生成頁，支援 Seedance 中文版 介面與完整多模態工作流。

開始使用Seedance 2.0

相關檢索：Seedance 2.0、Seedance 教程、Seedance 中文版、多模態 AI 影片、@ 引用提示詞。