Seedance 2.0：マルチモーダル入力の完全解説

まだ「テキストプロンプトだけ＋何度も再生成」で AI 動画を作っているなら、Seedance 2.0 の核心アップグレードを見逃している可能性があります。統合マルチモーダル AV アーキテクチャ上で、Seedance 2.0 はテキスト・画像・音声・動画を 1 つのワークフローで受け付け — 最大 12 参照ファイル（画像 9 + 動画 3 + 音声 3 + 自然言語指示）を同時に扱えます。キャラクター外見、カメラワーク、AV 同期を制御したいクリエイターにとって、マルチモーダル入力はオプションではなく — 出力品質に直結します。

この Seedance チュートリアルでは 4 つの入力モダリティ、@ 参照システム、一般的な制作シナリオを解説します — Seedance 中国語版 インターフェースからもすぐ始められます。

1. なぜ今マルチモーダル入力が重要か

以前のツールの多くはテキストのみでした。描写が細かいほど、モデルは外見・カメラ・音楽テンポを推測しなければなりませんでした。実プロジェクトでは look フレーム、参照クリップ、BGM、ナレーションが既にあるのに、モデルに直接渡せませんでした。

Seedance 2.0 は 4 モダリティを 1 つの生成パスに統合：テキスト意味、画像ビジュアル、動画の動きとカメラ言語、音声リズムを同時に読み取り、ネイティブ音声付き動画を出力します。1.5 と比べ、複雑なインタラクションや動きのシーンがより実用的 — 広告・ショートドラマ・SNS ワークフローに近づきます。

2. 4 つの入力モダリティの解説

2.1 テキスト：意図を明確に

テキストは基盤のままですが、Seedance 2.0 は長い指示、ショットリスト、スタイルキーワードを格段に理解します。次が可能です：

完全なシーン叙述（被写体、環境、動作、カメラ、スタイル）；
絵コンテ風マルチショット記述；
@ 参照で各アセットに役割を割り当て。

例：「@Image1 で主人公の顔、@Video1 でフォローカメラの動き、@Audio1 を BGM — キャラクターがネオン夜市を歩き、カメラは後方から追い、振り返ってレンズに微笑む。」

2.2 画像：キャラクターとビジュアルスタイルを固定

画像は最も一般的な参照です。look フレーム、シーンボード、ブランド VI、スタイルプレートをアップロードすると、顔・衣装・色・構図を抽出し、ショット間で比較的安定させます。

典型的用途	備考
キャラクタールック	ショット間で顔と衣装を再現
シーン参照	環境・照明・パレットを固定
スタイルプレート	広告・EC ビジュアルを統一
最初のフレーム	オープニング構図を制御

最大 9 枚；JPG、PNG、WebP 対応。

2.3 音声：リズム・台詞・ムード

Seedance 2.0 はアップロード音声を受け付け、ネイティブ同期トラックを出力できます。音声入力は次に使います：

BGM：ビート同期の編集とペーシング；
ナレーション/台詞：リップシンク（北京語、広東語、英語など）；
環境 SFX：シーンの雰囲気強化。

最大 3 トラック、合計長は通常 15 秒以内；MP3、WAV、M4A 対応。

2.4 動画：カメラと動きのビジュアル参照

参照クリップからカメラワーク、身体動作、リズム、VFX スタイルを抽出 — すべてをテキスト化する必要はありません。一般的な用途：

フォロー、オービット、ドリー、プッシュプルカメラ参照；
ダンスやアクション振付；
既存映像からシーンを延長・補完。

最大 3 本、クリップごと・合計の長さ制限（通常 ≤ 15 秒）；MP4、MOV 対応。

実制作では成果物に応じてモダリティを組み合わせます。短い広告は画像+テキスト、音楽重視のクリップは @Audio1、アクションシーケンスは @Video1 が有効です。12 ファイル全部は不要 — 最小構成から始め、ずれが出たら参照を追加してください。

3. @ 参照システム：各アセットに役割を割り当て

@ 参照がマルチモーダル入力を実用的にします。アップロード後、プロンプトで @Image1、@Video1、@Audio1 を指定し、モデルが推測せず各ファイルの役割を把握します。

タグ	一般的な役割
@Image1	顔 / 衣装 / シーン
@Video1	カメラ動作 / アクションのテンポ
@Audio1	BGM / リップシンク用ナレーション
テキスト	ストーリー、スタイル、尺

組み合わせ例（画像 + 動画 + 音声）：

全体を通して @Video1 の一人称フレーミングを使用。
@Audio1 を BGM とし、ビートに合わせて編集。
@Image1 のキャラクターがネオン夜市を歩き、カメラは後方から追従、
@Video1 の動きスタイルに合わせて — 停止、振り返り、微笑み。
シネマティックな夜景、豊かな色、浅い被写界深度。

@ 役割を明確にすると制御性が大幅に向上します。

複雑なプロンプトでは、叙述の前に @ 役割を列挙して参照を固定します。マルチショットではシーン切替時に @ タグを繰り返し — 例：「ショット 2 も @Image1 を維持」— drift を減らします。音楽主導なら「@Audio1 をビートに合わせて」と明記；カメラ重視なら被写体の動作より先に @Video1 の動き言語を書きます。まず 4–6 秒で各 @ の役割を検証してから 15 秒に延長してください。

4. 主要スペック一覧

項目	仕様
入力モダリティ	テキスト + 画像 + 動画 + 音声
参照ファイル上限	合計 12（画像 9 + 動画 3 + 音声 3）
クリップ長	4–15 秒
解像度	480p / 720p / 1080p（Pro は最大 2K）
アスペクト比	16:9、9:16、1:1、4:3、3:4、21:9
音声	ネイティブ AV 同期、多言語リップシンク
フレームレート	24fps

5. 3 つの一般的な制作シナリオ

5.1 ショートフォーム・SNS コンテンツ

チームは同じ IP とルックで量産することが多いです。画像でキャラクターを固定、動画参照でカメラ言語、テキストで脚本を変える — 再生成を減らし高速に反復。

5.2 ブランドマーケティングアセット

ブランドは VI 一貫性を要求します。ロゴ、キービジュアル、スタイルボードとテキストプロンプトで、統一トーンの広告・SNS クリップを生成 — テキストのみより信頼性が高い。

5.3 教育・ナレッジ動画

講義やナレーション音声をアップロードしてリップシンク映像に；シーン参照画像を追加 — 低コストのマルチモーダル教材。

6. はじめ方：4 ステップワークフロー

成果物を定義：広告、ショートドラマ、SNS クリップ；尺とアスペクト比。
参照を準備：キャラクター、カメラ、BGM を必要に応じて — 毎回 12 ファイル全部は不要。
プロンプト + @ を記述：まずストーリー、次に各アセットを紐付け；矛盾する指示を避ける。
小さく反復：4–6 秒でキャラクターとカメラを検証し、10–15 秒に延長。

よくある質問

Q：4 モダリティ全部使う必要がありますか？
A：いいえ。テキストのみでも可；画像 1–2 枚でも十分。必要に応じて組み合わせてください。

Q：@ の番号はどう対応しますか？
A：アップロード順 — 最初の画像が @Image1、最初の動画が @Video1 など。プロンプト内の番号を一貫させてください。

Q：画像で 100% 一貫性は保証されますか？
A：マルチショット一貫性はテキストのみを大きく上回りますが、複数被写体や極端なアングル変更ではずれることがあります — 固定テストセットを使ってください。

Q：アップロードした音声は最終クリップに含まれますか？
A：モデルは音声リズムに従え、プロンプトとモードに応じてネイティブ台詞・SFX・音楽も生成できます。

マルチモーダル入力を試してみませんか？下のボタンから Seedance 2.0 を開いてください — Seedance 中国語版 UI を含む完全なマルチモーダルワークフローです。

Seedance 2.0 を始める

関連検索: Seedance 2.0、Seedance チュートリアル、Seedance 中国語版、マルチモーダル AI 動画、@ 参照プロンプト。