Seedance 2.0: panduan lengkap input multimodal
Jika anda masih mencipta video AI dengan «prompt teks sahaja dan reroll tanpa henti», anda mungkin terlepas peningkatan teras Seedance 2.0. Dibina atas seni bina audio-video multimodal bersatu, Seedance 2.0 menerima teks, imej, audio dan video dalam satu aliran — sehingga 12 fail rujukan serentak (9 imej + 3 video + 3 trek audio + arahan bahasa semula jadi). Bagi pencipta yang perlu mengawal rupa watak, pergerakan kamera dan sync AV, input multimodal bukan tambahan — ia terus menjejaskan kualiti output.

Tutorial Seedance ini menerangkan empat modaliti input, sistem rujukan @ dan senario produksi biasa — termasuk melalui antara muka versi Cina Seedance.
1. Mengapa input multimodal penting sekarang
Banyak alat terdahulu hanya menerima teks. Semakin halus penerangan, semakin banyak model perlu meneka — rupa, pergerakan kamera, tempo muzik. Dalam projek sebenar, pasukan sudah ada look frame, klip rujukan, BGM atau voiceover yang tidak boleh dimasukkan terus ke model.
Seedance 2.0 meletakkan empat modaliti dalam satu laluan penjanaan: model membaca semantik teks, visual imej, pergerakan video dan bahasa kamera, serta irama audio, kemudian output video dengan trek audio native. Berbanding 1.5, adegan interaksi dan pergerakan kompleks lebih boleh digunakan — lebih hampir aliran iklan, drama pendek dan sosial.
2. Empat modaliti input dijelaskan
2.1 Teks: nyatakan niat dengan jelas
Teks kekal asas; Seedance 2.0 mengendalikan arahan panjang, senarai shot dan kata kunci gaya jauh lebih baik. Anda boleh:
- menulis naratif adegan penuh (subjek, persekitaran, aksi, kamera, gaya);
- menggunakan penerangan multi-shot gaya storyboard;
- memadankan rujukan @ untuk menetapkan peranan setiap aset.
Contoh: «@Image1 untuk wajah protagonis, @Video1 untuk pergerakan kamera follow, @Audio1 sebagai muzik latar — watak berjalan di pasar malam neon, kamera mengikuti dari belakang, kemudian berpaling tersenyum ke lensa.»
2.2 Imej: kunci watak dan gaya visual
Imej ialah rujukan paling biasa. Selepas muat naik look frame, papan adegan, VI jenama atau style plate, model mengekstrak muka, pakaian, warna dan komposisi serta mengekalkannya relatif stabil merentas shot.
| Kegunaan biasa | Nota |
|---|---|
| Rupa watak | Replikasi muka dan pakaian merentas shot |
| Rujukan adegan | Kunci persekitaran, pencahayaan, palet |
| Style plate | Satukan visual iklan dan e-dagang |
| Frame pertama | Kawal komposisi pembukaan |
Sehingga 9 imej; JPG, PNG, WebP.
2.3 Audio: irama, dialog dan suasana
Seedance 2.0 menerima audio muat naik dan boleh output trek disegerakkan native. Audio digunakan untuk:
- Muzik latar: suntingan dan pacing selaras beat;
- Voiceover/dialog: lip-sync (Mandarin, Kantonis, Inggeris, dll.);
- SFX persekitaran: atmosfera adegan lebih kuat.
Sehingga 3 trek audio, jumlah tempoh biasanya dalam 15 saat; MP3, WAV, M4A.
2.4 Video: rujukan visual untuk kamera dan pergerakan
Klip rujukan memberikan pergerakan kamera, aksi badan, irama dan gaya VFX — tanpa menterjemah semuanya ke teks. Kes biasa:
- kamera follow, orbit, dolly atau push-pull;
- koreografi tarian atau aksi;
- lanjutkan atau lengkapkan adegan dari footage sedia ada.
Sehingga 3 video, had per klip dan jumlah (biasanya ≤ 15 s); MP4, MOV.
Dalam produksi sebenar, gabungkan modaliti mengikut deliverable: iklan pendek selalu perlukan imej + teks; klip muzik utamakan @Audio1; urutan aksi gain dari @Video1. Tidak perlu 12 fail — mula minimal, tambah rujukan hanya bila hasil drift.
3. Sistem rujukan @: beri setiap aset satu tugas
Rujukan @ menjadikan input multimodal praktikal. Selepas muat naik, tandakan @Image1, @Video1, @Audio1 dalam prompt supaya model tahu peranan setiap fail, bukan meneka.
| Tag | Peranan biasa |
|---|---|
| @Image1 | Muka / pakaian / adegan |
| @Video1 | Pergerakan kamera / tempo aksi |
| @Audio1 | BGM / voiceover lip-sync |
| Teks | Cerita, gaya, tempoh |
Contoh gabungan (imej + video + audio):
Guna framing first-person @Video1 sepanjang klip.
@Audio1 sebagai muzik latar, suntingan on the beat.
Watak dari @Image1 di pasar malam neon, kamera ikut dari belakang,
gaya pergerakan seperti dalam @Video1 — jeda, pusing, senyum.
Look malam sinematik, warna kaya, depth of field cetek.
Peranan @ yang jelas meningkatkan keboleh kawalan dengan ketara.
Bina prompt kompleks: senaraikan peranan @ sebelum naratif untuk sauh rujukan. Dalam penerangan multi-shot, ulang tag bila tukar adegan — cth. «@Image1 kekal di shot 2» — kurangkan drift. Jika audio tentukan irama, sebut «@Audio1 on the beat»; untuk fokus kamera, mula dengan bahasa pergerakan @Video1 sebelum aksi subjek. Uji klip 4–6 s dahulu sebelum lanjut ke 15 s.
4. Spesifikasi teras sepintas lalu
| Item | Spesifikasi |
|---|---|
| Modaliti input | Teks + imej + video + audio |
| Had fail rujukan | 12 jumlah (9 imej + 3 video + 3 audio) |
| Panjang klip | 4–15 saat |
| Resolusi | 480p / 720p / 1080p (Pro sehingga 2K) |
| Nisbah aspek | 16:9, 9:16, 1:1, 4:3, 3:4, 21:9 |
| Audio | Sync AV native, lip-sync pelbagai bahasa |
| Kadar bingkai | 24fps |
5. Tiga senario produksi biasa
5.1 Kandungan pendek dan sosial
Pasukan sering perlukan volum dengan IP dan look sama. Kunci watak dengan imej, bahasa kamera dengan rujukan video, variasi skrip dalam teks — iterasi lebih pantas dengan reroll lebih sedikit.
5.2 Aset pemasaran jenama
Jenama menuntut konsistensi VI. Logo, key visual dan style board plus prompt teks untuk klip iklan atau sosial dengan nada seragam — lebih dipercayai daripada teks sahaja.
5.3 Video pendidikan dan pengetahuan
Muat naik audio kuliah atau naratif untuk visual lip-sync; tambah imej rujukan adegan — kandungan pengajaran multimodal kos rendah.
6. Bermula: aliran kerja empat langkah
- Tentukan deliverable: iklan, drama pendek, klip sosial; tempoh dan nisbah aspek.
- Sediakan rujukan: watak, kamera, BGM mengikut keperluan — tidak perlu 12 fail setiap kali.
- Tulis prompt + @: cerita dulu, kemudian ikat setiap aset; elak arahan bercanggah.
- Iterasi kecil: 4–6 s untuk sahkan watak dan kamera, kemudian lanjutkan ke 10–15 s.
Soalan lazim
S: Perlu guna keempat-empat modaliti?
J: Tidak. Teks sahaja sudah cukup; satu atau dua imej pun ok. Campur mengikut keperluan.
S: Bagaimana nombor @ dipetakan?
J: Ikut turutan muat naik — imej pertama @Image1, video pertama @Video1, dll. Kekalkan penomboran konsisten dalam prompt.
S: Adakah imej menjamin konsistensi 100%?
J: Konsistensi multi-shot jauh mengatasi teks sahaja; adegan multi-subjek atau sudut melampau masih boleh drift — guna set ujian tetap.
S: Adakah audio muat naik muncul dalam klip akhir?
J: Model boleh ikut irama audio dan juga jana dialog, SFX dan muzik native mengikut prompt dan mod.
Bersedia untuk mencuba input multimodal? Gunakan butang di bawah untuk membuka Seedance 2.0 — aliran kerja multimodal penuh, termasuk UI versi Cina Seedance.
Carian berkaitan: Seedance 2.0, tutorial Seedance, versi Cina Seedance, video AI multimodal, prompt @ rujukan.