Seedance Logo Seedance
ブログ

Seedance 2.0:マルチモーダル入力の完全解説

Seedance

まだ「テキストプロンプトだけ+何度も再生成」で AI 動画を作っているなら、Seedance 2.0 の核心アップグレードを見逃している可能性があります。統合マルチモーダル AV アーキテクチャ上で、Seedance 2.0 はテキスト・画像・音声・動画を 1 つのワークフローで受け付け — 最大 12 参照ファイル(画像 9 + 動画 3 + 音声 3 + 自然言語指示)を同時に扱えます。キャラクター外見、カメラワーク、AV 同期を制御したいクリエイターにとって、マルチモーダル入力はオプションではなく — 出力品質に直結します。

Seedance 2.0:マルチモーダル入力の完全解説

この Seedance チュートリアルでは 4 つの入力モダリティ、@ 参照システム、一般的な制作シナリオを解説します — Seedance 中国語版 インターフェースからもすぐ始められます。

1. なぜ今マルチモーダル入力が重要か

以前のツールの多くはテキストのみでした。描写が細かいほど、モデルは外見・カメラ・音楽テンポを推測しなければなりませんでした。実プロジェクトでは look フレーム、参照クリップ、BGM、ナレーションが既にあるのに、モデルに直接渡せませんでした。

Seedance 2.0 は 4 モダリティを 1 つの生成パスに統合:テキスト意味、画像ビジュアル、動画の動きとカメラ言語、音声リズムを同時に読み取り、ネイティブ音声付き動画を出力します。1.5 と比べ、複雑なインタラクションや動きのシーンがより実用的 — 広告・ショートドラマ・SNS ワークフローに近づきます。

2. 4 つの入力モダリティの解説

2.1 テキスト:意図を明確に

テキストは基盤のままですが、Seedance 2.0 は長い指示、ショットリスト、スタイルキーワードを格段に理解します。次が可能です:

  • 完全なシーン叙述(被写体、環境、動作、カメラ、スタイル);
  • 絵コンテ風マルチショット記述;
  • @ 参照で各アセットに役割を割り当て。

例:「@Image1 で主人公の顔、@Video1 でフォローカメラの動き、@Audio1 を BGM — キャラクターがネオン夜市を歩き、カメラは後方から追い、振り返ってレンズに微笑む。」

2.2 画像:キャラクターとビジュアルスタイルを固定

画像は最も一般的な参照です。look フレーム、シーンボード、ブランド VI、スタイルプレートをアップロードすると、顔・衣装・色・構図を抽出し、ショット間で比較的安定させます。

典型的用途備考
キャラクタールックショット間で顔と衣装を再現
シーン参照環境・照明・パレットを固定
スタイルプレート広告・EC ビジュアルを統一
最初のフレームオープニング構図を制御

最大 9 枚;JPG、PNG、WebP 対応。

2.3 音声:リズム・台詞・ムード

Seedance 2.0 はアップロード音声を受け付け、ネイティブ同期トラックを出力できます。音声入力は次に使います:

  • BGM:ビート同期の編集とペーシング;
  • ナレーション/台詞:リップシンク(北京語、広東語、英語など);
  • 環境 SFX:シーンの雰囲気強化。

最大 3 トラック、合計長は通常 15 秒以内;MP3、WAV、M4A 対応。

2.4 動画:カメラと動きのビジュアル参照

参照クリップからカメラワーク、身体動作、リズム、VFX スタイルを抽出 — すべてをテキスト化する必要はありません。一般的な用途:

  • フォロー、オービット、ドリー、プッシュプルカメラ参照;
  • ダンスやアクション振付;
  • 既存映像からシーンを延長・補完。

最大 3 本、クリップごと・合計の長さ制限(通常 ≤ 15 秒);MP4、MOV 対応。

実制作では成果物に応じてモダリティを組み合わせます。短い広告は画像+テキスト、音楽重視のクリップは @Audio1、アクションシーケンスは @Video1 が有効です。12 ファイル全部は不要 — 最小構成から始め、ずれが出たら参照を追加してください。

3. @ 参照システム:各アセットに役割を割り当て

@ 参照がマルチモーダル入力を実用的にします。アップロード後、プロンプトで @Image1@Video1@Audio1 を指定し、モデルが推測せず各ファイルの役割を把握します。

タグ一般的な役割
@Image1顔 / 衣装 / シーン
@Video1カメラ動作 / アクションのテンポ
@Audio1BGM / リップシンク用ナレーション
テキストストーリー、スタイル、尺

組み合わせ例(画像 + 動画 + 音声):

全体を通して @Video1 の一人称フレーミングを使用。
@Audio1 を BGM とし、ビートに合わせて編集。
@Image1 のキャラクターがネオン夜市を歩き、カメラは後方から追従、
@Video1 の動きスタイルに合わせて — 停止、振り返り、微笑み。
シネマティックな夜景、豊かな色、浅い被写界深度。

@ 役割を明確にすると制御性が大幅に向上します。

複雑なプロンプトでは、叙述の前に @ 役割を列挙して参照を固定します。マルチショットではシーン切替時に @ タグを繰り返し — 例:「ショット 2 も @Image1 を維持」— drift を減らします。音楽主導なら「@Audio1 をビートに合わせて」と明記;カメラ重視なら被写体の動作より先に @Video1 の動き言語を書きます。まず 4–6 秒で各 @ の役割を検証してから 15 秒に延長してください。

4. 主要スペック一覧

項目仕様
入力モダリティテキスト + 画像 + 動画 + 音声
参照ファイル上限合計 12(画像 9 + 動画 3 + 音声 3)
クリップ長4–15 秒
解像度480p / 720p / 1080p(Pro は最大 2K)
アスペクト比16:9、9:16、1:1、4:3、3:4、21:9
音声ネイティブ AV 同期、多言語リップシンク
フレームレート24fps

5. 3 つの一般的な制作シナリオ

5.1 ショートフォーム・SNS コンテンツ

チームは同じ IP とルックで量産することが多いです。画像でキャラクターを固定、動画参照でカメラ言語、テキストで脚本を変える — 再生成を減らし高速に反復。

5.2 ブランドマーケティングアセット

ブランドは VI 一貫性を要求します。ロゴ、キービジュアル、スタイルボードとテキストプロンプトで、統一トーンの広告・SNS クリップを生成 — テキストのみより信頼性が高い。

5.3 教育・ナレッジ動画

講義やナレーション音声をアップロードしてリップシンク映像に;シーン参照画像を追加 — 低コストのマルチモーダル教材。

6. はじめ方:4 ステップワークフロー

  1. 成果物を定義:広告、ショートドラマ、SNS クリップ;尺とアスペクト比。
  2. 参照を準備:キャラクター、カメラ、BGM を必要に応じて — 毎回 12 ファイル全部は不要。
  3. プロンプト + @ を記述:まずストーリー、次に各アセットを紐付け;矛盾する指示を避ける。
  4. 小さく反復:4–6 秒でキャラクターとカメラを検証し、10–15 秒に延長。

よくある質問

Q:4 モダリティ全部使う必要がありますか?
A:いいえ。テキストのみでも可;画像 1–2 枚でも十分。必要に応じて組み合わせてください。

Q:@ の番号はどう対応しますか?
A:アップロード順 — 最初の画像が @Image1、最初の動画が @Video1 など。プロンプト内の番号を一貫させてください。

Q:画像で 100% 一貫性は保証されますか?
A:マルチショット一貫性はテキストのみを大きく上回りますが、複数被写体や極端なアングル変更ではずれることがあります — 固定テストセットを使ってください。

Q:アップロードした音声は最終クリップに含まれますか?
A:モデルは音声リズムに従え、プロンプトとモードに応じてネイティブ台詞・SFX・音楽も生成できます。


マルチモーダル入力を試してみませんか?下のボタンから Seedance 2.0 を開いてください — Seedance 中国語版 UI を含む完全なマルチモーダルワークフローです。


Seedance 2.0 を始める

関連検索: Seedance 2.0、Seedance チュートリアル、Seedance 中国語版、マルチモーダル AI 動画、@ 参照プロンプト。