Seedance 2.0: pełny przewodnik po wejściu multimodalnym

Jeśli nadal tworzysz wideo AI z «samymi promptami tekstowymi i nieskończonymi rerollami», prawdopodobnie omijasz kluczową aktualizację Seedance 2.0. Zbudowany na zunifikowanej multimodalnej architekturze AV, Seedance 2.0 przyjmuje tekst, obrazy, audio i wideo w jednym workflow — do 12 plików referencyjnych naraz (9 obrazów + 3 wideo + 3 ścieżki audio + instrukcje w języku naturalnym). Dla twórców, którzy muszą kontrolować wygląd postaci, ruch kamery i sync AV, wejście multimodalne to nie dodatek — bezpośrednio wpływa na jakość wyniku.

Ten samouczek Seedance omawia cztery modalności wejścia, system referencji @ i typowe scenariusze produkcji — także przez interfejs chińskiej wersji Seedance.

1. Dlaczego wejście multimodalne ma teraz znaczenie

Wcześniejsze narzędzia często przyjmowały tylko tekst. Im dokładniejszy opis, tym więcej model musiał zgadywać — wygląd, ruchy kamery, tempo muzyki. W realnych projektach zespoły mają look frame’y, klipy referencyjne, BGM lub voice-over, których nie dało się wprowadzić bezpośrednio do modelu.

Seedance 2.0 łączy cztery modalności w jednej ścieżce generacji: model czyta semantykę tekstu, wizualia obrazu, ruch wideo i język kamery oraz rytm audio, a następnie generuje wideo z natywnymi ścieżkami audio. W porównaniu z 1.5 złożone sceny interakcji i ruchu są bardziej użyteczne — bliżej workflow reklam, krótkich dram i social.

2. Cztery modalności wejścia wyjaśnione

2.1 Tekst: jasno określ intencję

Tekst pozostaje podstawą; Seedance 2.0 znacznie lepiej obsługuje długie instrukcje, listy ujęć i słowa kluczowe stylu. Możesz:

pisać pełne narracje scen (podmiot, otoczenie, akcja, kamera, styl);
używać opisów multi-shot w stylu storyboard;
łączyć referencje @, aby przypisać rolę każdemu assetowi.

Przykład: «@Image1 dla twarzy bohatera, @Video1 dla ruchu kamery follow, @Audio1 jako muzyka w tle — postać przechodzi przez neonowy nocny targ, kamera podąża z tyłu, potem odwraca się uśmiechając do obiektywu.»

2.2 Obrazy: blokada postaci i stylu wizualnego

Obrazy to najczęstszy typ referencji. Po wgraniu look frame’ów, tablic scen, VI marki lub style plates model wyciąga twarz, strój, kolor i kompozycję i utrzymuje je względnie stabilne między ujęciami.

Typowe zastosowanie	Uwagi
Wygląd postaci	Powtarzanie twarzy i stroju między ujęciami
Referencja sceny	Ustalenie otoczenia, światła i palety
Style plate	Ujednolicenie wizualiów reklam i e-commerce
Pierwsza klatka	Kontrola kompozycji otwarcia

Do 9 obrazów; JPG, PNG, WebP.

2.3 Audio: rytm, dialog i nastrój

Seedance 2.0 przyjmuje wgrane audio i może generować natywne zsynchronizowane ścieżki. Audio służy do:

Muzyki w tle: montaż i pacing zsynchronizowany z beatem;
Voice-over/dialogu: lip-sync (mandaryński, kantoński, angielski itd.);
Ambient SFX: silniejsza atmosfera sceny.

Do 3 ścieżek audio, łączna długość zwykle w 15 sekund; MP3, WAV, M4A.

2.4 Wideo: wizualna referencja kamery i ruchu

Klipy referencyjne dostarczają ruchu kamery, akcji ciała, rytmu i stylu VFX — bez tłumaczenia wszystkiego na tekst. Typowe przypadki:

kamera follow, orbit, dolly lub push-pull;
choreografia tańca lub akcji;
rozszerzanie lub uzupełnianie scen z istniejącego footage.

Do 3 wideo, limity na klip i łącznie (zwykle ≤ 15 s); MP4, MOV.

W realnej produkcji łącz modalności według deliverable: krótkie reklamy często wymagają obraz + tekst; klipy muzyczne priorytetyzują @Audio1; sekwencje action korzystają z @Video1. Nie trzeba 12 plików — zacznij od minimum, dodawaj referencje przy drift.

3. System referencji @: przypisz zadanie każdemu assetowi

Referencje @ czynią wejście multimodalne praktycznym. Po wgraniu oznacz @Image1, @Video1, @Audio1 w prompcie, aby model znał rolę każdego pliku zamiast zgadywać.

Tag	Typowa rola
@Image1	Twarz / strój / scena
@Video1	Ruch kamery / tempo akcji
@Audio1	BGM / voice-over lip-sync
Tekst	Historia, styl, czas trwania

Przykład kombinowany (obraz + wideo + audio):

Użyj kadrowania first-person @Video1 przez cały klip.
@Audio1 jako muzyka w tle, montaż na beat.
Postać z @Image1 na neonowym nocnym targu, kamera podąża z tyłu,
styl ruchu jak w @Video1 — pauza, obrót, uśmiech.
Filmowy nocny look, bogaty kolor, mała głębia ostrości.

Jasne role @ znacznie poprawiają kontrolowalność.

W złożonych promptach wymień role @ przed narracją, by zakotwiczyć referencje. W opisach multi-shot powtarzaj tagi przy zmianie sceny — np. «@Image1 w shot 2» — by zmniejszyć drift. Gdy audio wyznacza rytm, napisz «@Audio1 on the beat»; przy pracy camera-centric zacznij od języka ruchu @Video1 przed akcją postaci. Najpierw testuj 4–6 s na każdy @, potem rozszerz do 15 s.

4. Kluczowe specyfikacje w skrócie

Pozycja	Specyfikacja
Modalności wejścia	Tekst + obraz + wideo + audio
Limit plików referencyjnych	12 łącznie (9 obrazów + 3 wideo + 3 audio)
Długość klipu	4–15 sekund
Rozdzielczość	480p / 720p / 1080p (Pro do 2K)
Proporcje	16:9, 9:16, 1:1, 4:3, 3:4, 21:9
Audio	Natywny sync AV, wielojęzyczny lip-sync
Liczba klatek	24 fps

5. Trzy typowe scenariusze produkcji

Zespoły często potrzebują wolumenu z tą samą IP i lookiem. Zablokuj postać obrazami, język kamery referencją wideo, warianty skryptów w tekście — szybsza iteracja z mniejszą liczbą reroll.

5.2 Assety marketingowe marki

Marki wymagają spójności VI. Logo, key visuals i style boards plus prompty tekstowe dla reklam lub social clips w jednolitym tonie — bardziej niezawodne niż sam tekst.

5.3 Wideo edukacyjne i knowledge

Wgraj audio wykładu lub narracji dla visuali lip-sync; dodaj referencyjne obrazy scen — tani multimodalny content edukacyjny.

6. Start: workflow w czterech krokach

Zdefiniuj deliverable: reklama, krótki dram, social clip; czas trwania i proporcje.
Przygotuj referencje: postać, kamera, BGM według potrzeb — nie trzeba wszystkich 12 plików za każdym razem.
Napisz prompt + @: najpierw historia, potem powiąż asset; unikaj sprzecznych instrukcji.
Iteruj małymi krokami: 4–6 s do walidacji postaci i kamery, potem rozszerz do 10–15 s.

FAQ

P: Czy muszę używać wszystkich czterech modalności?
O: Nie. Wystarczy sam tekst; jeden lub dwa obrazy też ok. Łącz według potrzeb.

P: Jak mapowane są numery @?
O: Według kolejności wgrywania — pierwszy obraz to @Image1, pierwsze wideo @Video1 itd. Utrzymuj numerację spójną w prompcie.

P: Czy obrazy gwarantują 100% spójności?
O: Spójność multi-shot znacznie przewyższa sam tekst; złożone multi-subject lub ekstremalne kąty mogą nadal drift — użyj stałego zestawu testowego.

P: Czy wgrane audio pojawia się w finalnym klipie?
O: Model może podążać za rytmem audio i też generować natywny dialog, SFX i muzykę w zależności od promptu i trybu.

Gotowy przetestować wejście multimodalne? Użyj przycisku poniżej, aby otworzyć Seedance 2.0 — pełny workflow multimodalny, w tym interfejs chińskiej wersji Seedance.

Rozpocznij z Seedance 2.0

Powiązane wyszukiwania: Seedance 2.0, samouczek Seedance, chińska wersja Seedance, multimodalne wideo AI, prompty @ referencja.