Seedance 2.0:マルチモーダル入力の完全解説
まだ「テキストプロンプトだけ+何度も再生成」で AI 動画を作っているなら、Seedance 2.0 の核心アップグレードを見逃している可能性があります。統合マルチモーダル AV アーキテクチャ上で、Seedance 2.0 はテキスト・画像・音声・動画を 1 つのワークフローで受け付け — 最大 12 参照ファイル(画像 9 + 動画 3 + 音声 3 + 自然言語指示)を同時に扱えます。キャラクター外見、カメラワーク、AV 同期を制御したいクリエイターにとって、マルチモーダル入力はオプションではなく — 出力品質に直結します。

この Seedance チュートリアルでは 4 つの入力モダリティ、@ 参照システム、一般的な制作シナリオを解説します — Seedance 中国語版 インターフェースからもすぐ始められます。
1. なぜ今マルチモーダル入力が重要か
以前のツールの多くはテキストのみでした。描写が細かいほど、モデルは外見・カメラ・音楽テンポを推測しなければなりませんでした。実プロジェクトでは look フレーム、参照クリップ、BGM、ナレーションが既にあるのに、モデルに直接渡せませんでした。
Seedance 2.0 は 4 モダリティを 1 つの生成パスに統合:テキスト意味、画像ビジュアル、動画の動きとカメラ言語、音声リズムを同時に読み取り、ネイティブ音声付き動画を出力します。1.5 と比べ、複雑なインタラクションや動きのシーンがより実用的 — 広告・ショートドラマ・SNS ワークフローに近づきます。
2. 4 つの入力モダリティの解説
2.1 テキスト:意図を明確に
テキストは基盤のままですが、Seedance 2.0 は長い指示、ショットリスト、スタイルキーワードを格段に理解します。次が可能です:
- 完全なシーン叙述(被写体、環境、動作、カメラ、スタイル);
- 絵コンテ風マルチショット記述;
- @ 参照で各アセットに役割を割り当て。
例:「@Image1 で主人公の顔、@Video1 でフォローカメラの動き、@Audio1 を BGM — キャラクターがネオン夜市を歩き、カメラは後方から追い、振り返ってレンズに微笑む。」
2.2 画像:キャラクターとビジュアルスタイルを固定
画像は最も一般的な参照です。look フレーム、シーンボード、ブランド VI、スタイルプレートをアップロードすると、顔・衣装・色・構図を抽出し、ショット間で比較的安定させます。
| 典型的用途 | 備考 |
|---|---|
| キャラクタールック | ショット間で顔と衣装を再現 |
| シーン参照 | 環境・照明・パレットを固定 |
| スタイルプレート | 広告・EC ビジュアルを統一 |
| 最初のフレーム | オープニング構図を制御 |
最大 9 枚;JPG、PNG、WebP 対応。
2.3 音声:リズム・台詞・ムード
Seedance 2.0 はアップロード音声を受け付け、ネイティブ同期トラックを出力できます。音声入力は次に使います:
- BGM:ビート同期の編集とペーシング;
- ナレーション/台詞:リップシンク(北京語、広東語、英語など);
- 環境 SFX:シーンの雰囲気強化。
最大 3 トラック、合計長は通常 15 秒以内;MP3、WAV、M4A 対応。
2.4 動画:カメラと動きのビジュアル参照
参照クリップからカメラワーク、身体動作、リズム、VFX スタイルを抽出 — すべてをテキスト化する必要はありません。一般的な用途:
- フォロー、オービット、ドリー、プッシュプルカメラ参照;
- ダンスやアクション振付;
- 既存映像からシーンを延長・補完。
最大 3 本、クリップごと・合計の長さ制限(通常 ≤ 15 秒);MP4、MOV 対応。
実制作では成果物に応じてモダリティを組み合わせます。短い広告は画像+テキスト、音楽重視のクリップは @Audio1、アクションシーケンスは @Video1 が有効です。12 ファイル全部は不要 — 最小構成から始め、ずれが出たら参照を追加してください。
3. @ 参照システム:各アセットに役割を割り当て
@ 参照がマルチモーダル入力を実用的にします。アップロード後、プロンプトで @Image1、@Video1、@Audio1 を指定し、モデルが推測せず各ファイルの役割を把握します。
| タグ | 一般的な役割 |
|---|---|
| @Image1 | 顔 / 衣装 / シーン |
| @Video1 | カメラ動作 / アクションのテンポ |
| @Audio1 | BGM / リップシンク用ナレーション |
| テキスト | ストーリー、スタイル、尺 |
組み合わせ例(画像 + 動画 + 音声):
全体を通して @Video1 の一人称フレーミングを使用。
@Audio1 を BGM とし、ビートに合わせて編集。
@Image1 のキャラクターがネオン夜市を歩き、カメラは後方から追従、
@Video1 の動きスタイルに合わせて — 停止、振り返り、微笑み。
シネマティックな夜景、豊かな色、浅い被写界深度。
@ 役割を明確にすると制御性が大幅に向上します。
複雑なプロンプトでは、叙述の前に @ 役割を列挙して参照を固定します。マルチショットではシーン切替時に @ タグを繰り返し — 例:「ショット 2 も @Image1 を維持」— drift を減らします。音楽主導なら「@Audio1 をビートに合わせて」と明記;カメラ重視なら被写体の動作より先に @Video1 の動き言語を書きます。まず 4–6 秒で各 @ の役割を検証してから 15 秒に延長してください。
4. 主要スペック一覧
| 項目 | 仕様 |
|---|---|
| 入力モダリティ | テキスト + 画像 + 動画 + 音声 |
| 参照ファイル上限 | 合計 12(画像 9 + 動画 3 + 音声 3) |
| クリップ長 | 4–15 秒 |
| 解像度 | 480p / 720p / 1080p(Pro は最大 2K) |
| アスペクト比 | 16:9、9:16、1:1、4:3、3:4、21:9 |
| 音声 | ネイティブ AV 同期、多言語リップシンク |
| フレームレート | 24fps |
5. 3 つの一般的な制作シナリオ
5.1 ショートフォーム・SNS コンテンツ
チームは同じ IP とルックで量産することが多いです。画像でキャラクターを固定、動画参照でカメラ言語、テキストで脚本を変える — 再生成を減らし高速に反復。
5.2 ブランドマーケティングアセット
ブランドは VI 一貫性を要求します。ロゴ、キービジュアル、スタイルボードとテキストプロンプトで、統一トーンの広告・SNS クリップを生成 — テキストのみより信頼性が高い。
5.3 教育・ナレッジ動画
講義やナレーション音声をアップロードしてリップシンク映像に;シーン参照画像を追加 — 低コストのマルチモーダル教材。
6. はじめ方:4 ステップワークフロー
- 成果物を定義:広告、ショートドラマ、SNS クリップ;尺とアスペクト比。
- 参照を準備:キャラクター、カメラ、BGM を必要に応じて — 毎回 12 ファイル全部は不要。
- プロンプト + @ を記述:まずストーリー、次に各アセットを紐付け;矛盾する指示を避ける。
- 小さく反復:4–6 秒でキャラクターとカメラを検証し、10–15 秒に延長。
よくある質問
Q:4 モダリティ全部使う必要がありますか?
A:いいえ。テキストのみでも可;画像 1–2 枚でも十分。必要に応じて組み合わせてください。
Q:@ の番号はどう対応しますか?
A:アップロード順 — 最初の画像が @Image1、最初の動画が @Video1 など。プロンプト内の番号を一貫させてください。
Q:画像で 100% 一貫性は保証されますか?
A:マルチショット一貫性はテキストのみを大きく上回りますが、複数被写体や極端なアングル変更ではずれることがあります — 固定テストセットを使ってください。
Q:アップロードした音声は最終クリップに含まれますか?
A:モデルは音声リズムに従え、プロンプトとモードに応じてネイティブ台詞・SFX・音楽も生成できます。
マルチモーダル入力を試してみませんか?下のボタンから Seedance 2.0 を開いてください — Seedance 中国語版 UI を含む完全なマルチモーダルワークフローです。
関連検索: Seedance 2.0、Seedance チュートリアル、Seedance 中国語版、マルチモーダル AI 動画、@ 参照プロンプト。