Seedance 2.0: راهنمای کامل ورودی چندوجهی
اگر هنوز ویدیوی هوش مصنوعی را با «فقط پرامپت متنی و reroll بیپایان» میسازید، احتمالاً ارتقای اصلی Seedance 2.0 را از دست میدهید. بر پایه معماری یکپارچه صوت-ویدیوی چندوجهی، Seedance 2.0 متن، تصویر، صدا و ویدیو را در یک گردش کار میپذیرد — تا ۱۲ فایل مرجع همزمان (۹ تصویر + ۳ ویدیو + ۳ تراک صوتی + دستورات زبان طبیعی). برای خالقانی که باید ظاهر شخصیت، حرکت دوربین و همگامسازی AV را کنترل کنند، ورودی چندوجهی اختیاری نیست — مستقیماً بر کیفیت خروجی اثر میگذارد.

این آموزش Seedance هر چهار حالت ورودی، سیستم مرجع @ و سناریوهای رایج تولید را توضیح میدهد — حتی از طریق رابط نسخه چینی Seedance.
1. چرا ورودی چندوجهی اکنون مهم است
ابزارهای قبلی اغلب فقط متن میپذیرفتند. هرچه توصیف دقیقتر، مدل بیشتر باید حدس میزد — ظاهر، حرکت دوربین، tempo موسیقی. در پروژههای واقعی، تیمها look frame، کلیپ مرجع، BGM یا voiceover دارند که نمیتوانستند مستقیم به مدل بدهند.
Seedance 2.0 چهار حالت را در یک مسیر تولید قرار میدهد: مدل معنای متن، تصاویر، حرکت ویدیو و زبان دوربین، بهعلاوه ریتم صدا را با هم میخواند و ویدیو با تراکهای صوتی native خروجی میدهد. نسبت به ۱.۵، صحنههای تعامل و حرکت پیچیده کاربردیتر — نزدیکتر به گردش کار تبلیغات، درام کوتاه و شبکههای اجتماعی.
2. توضیح چهار حالت ورودی
2.1 متن: نیت را روشن بیان کنید
متن پایه میماند؛ Seedance 2.0 دستورات بلند، لیست شات و کلیدواژههای سبک را بسیار بهتر مدیریت میکند. میتوانید:
- روایت کامل صحنه بنویسید (موضوع، محیط، عمل، دوربین، سبک);
- توصیف چندشاتی شبیه storyboard استفاده کنید;
- با مراجع @ به هر asset نقش دهید.
مثال: «@Image1 برای چهره شخصیت اصلی، @Video1 برای حرکت دوربین follow، @Audio1 بهعنوان موسیقی پسزمینه — شخصیت از بازار شبانه نئون میگذرد، دوربین از پشت دنبال میکند، سپس لبخند میزند به لنز.»
2.2 تصویر: قفل شخصیت و سبک بصری
تصاویر رایجترین مرجع هستند. پس از آپلود look frame، برد صحنه، VI برند یا style plate، مدل چهره، لباس، رنگ و ترکیببندی را استخراج و نسبتاً پایدار نگه میدارد.
| کاربرد معمول | یادداشت |
|---|---|
| ظاهر شخصیت | تکرار چهره و لباس بین شاتها |
| مرجع صحنه | ثابت کردن محیط، نور و پالت |
| style plate | یکپارچهسازی بصری تبلیغ و e-commerce |
| فریم اول | کنترل ترکیببندی آغاز |
تا ۹ تصویر؛ JPG، PNG، WebP.
2.3 صدا: ریتم، دیالوگ و فضا
Seedance 2.0 صدای آپلود شده را میپذیرد و میتواند تراکهای همگام native تولید کند. صدا برای:
- موسیقی پسزمینه: تدوین و pacing همگام beat;
- voiceover/دیالوگ: lip-sync (مانdarin، کantonese، انگلیسی و غیره);
- SFX محیطی: فضای صحنه قویتر.
تا ۳ تراک صوتی، طول کل معمولاً در ۱۵ ثانیه؛ MP3، WAV، M4A.
2.4 ویدیو: مرجع بصری برای دوربین و حرکت
کلیپهای مرجع حرکت دوربین، عمل بدن، ریتم و سبک VFX میدهند — بدون ترجمه همه به متن. موارد رایج:
- دوربین follow، orbit، dolly یا push-pull;
- coreografia رقص یا action;
- تمدید یا تکمیل صحنه از footage موجود.
تا ۳ ویدیو، محدودیت هر کلیپ و کل (معمولاً ≤ ۱۵ ث); MP4، MOV.
در تولید واقعی، modalities را بر اساس deliverable ترکیب کنید: تبلیغات کوتاه اغلب تصویر + متن؛ کلیپ موسیقی @Audio1 را اولویت میدهد؛ صحنههای action از @Video1 سود میبرند. ۱۲ فایل لازم نیست — از حداقل شروع کنید، فقط هنگام drift مرجع اضافه کنید.
3. سیستم مرجع @: به هر asset یک کار
مراجع @ ورودی چندوجهی را عملی میکنند. پس از آپلود، @Image1، @Video1، @Audio1 را در پرامپت علامت بزنید تا مدل نقش هر فایل را بداند نه حدس.
| برچسب | نقش رایج |
|---|---|
| @Image1 | چهره / لباس / صحنه |
| @Video1 | حرکت دوربین / tempo action |
| @Audio1 | BGM / voiceover lip-sync |
| متن | داستان، سبک، مدت |
مثال ترکیبی (تصویر + ویدیو + صدا):
در کل کلیپ framing اولشخص @Video1 استفاده شود.
@Audio1 موسیقی پسزمینه، تدوین روی beat.
شخصیت از @Image1 در بازار نئون شبانه، دوربین از پشت دنبال،
سبک حرکت مانند @Video1 — توقف، چرخش، لبخند.
نگاه شبانه سینمایی، رنگ غنی، عمق میدان کم.
نقشهای @ روشن کنترلپذیری را بهشدت بهبود میدهند.
در پرامپتهای پیچیده، نقشهای @ را قبل از روایت فهرست کنید. در توصیف multi-shot، هنگام تغییر صحنه tag تکرار کنید — مثلاً «@Image1 در shot 2 باقی بماند» — برای کاهش drift. اگر صدا ritm را تعیین میکند «@Audio1 on the beat» بنویسید؛ برای کار camera-heavy، ابتدا زبان حرکت @Video1 را قبل از action بنویسید. ابتدا ۴–۶ ث برای هر @ تست کنید، سپس تا ۱۵ ث.
4. مشخصات اصلی در یک نگاه
| مورد | مشخصات |
|---|---|
| حالتهای ورودی | متن + تصویر + ویدیو + صدا |
| سقف فایل مرجع | ۱۲ کل (۹ تصویر + ۳ ویدیو + ۳ صدا) |
| طول کلیپ | ۴–۱۵ ثانیه |
| وضوح | 480p / 720p / 1080p (Pro تا 2K) |
| نسبت تصویر | 16:9، 9:16، 1:1، 4:3، 3:4، 21:9 |
| صدا | همگام AV native، lip-sync چندزبانه |
| نرخ فریم | 24fps |
5. سه سناریوی رایج تولید
5.1 محتوای کوتاه و شبکههای اجتماعی
تیمها اغلب حجم با IP و look یکسان میخواهند. شخصیت با تصویر، زبان دوربین با مرجع ویدیو، تنوع اسکریپت در متن — تکرار سریعتر با reroll کمتر.
5.2 داراییهای بازاریابی برند
برندها یکپارچگی VI میخواهند. لوگو، key visual و style board بهعلاوه پرامپت متنی برای کلیپ تبلیغ یا social با tone یکسان — قابلاعتمادتر از فقط متن.
5.3 ویدیوی آموزشی و knowledge
آپلود صدای درس یا روایت برای visual lip-sync؛ افزودن تصاویر مرجع صحنه — محتوای آموزشی چندوجهی کمهزینه.
6. شروع: گردش کار چهار مرحلهای
- تحویل را تعریف کنید: تبلیغ، درام کوتاه، کلیپ social؛ مدت و نسبت تصویر.
- مراجع را آماده کنید: شخصیت، دوربین، BGM در صورت نیاز — هر بار ۱۲ فایل لازم نیست.
- پرامپت + @ بنویسید: اول داستان، سپس bind هر asset؛ از دستورات متناقض پرهیز کنید.
- تکرار کوچک: ۴–۶ ث برای اعتبارسنجی شخصیت و دوربین، سپس تا ۱۰–۱۵ ث.
پرسشهای متداول
س: باید هر چهار حالت را استفاده کنم؟
ج: خیر. فقط متن کافی است؛ یک یا دو تصویر هم ok. طبق نیاز ترکیب کنید.
س: شمارههای @ چگونه map میشوند؟
ج: بر اساس ترتیب آپلود — اولین تصویر @Image1، اولین ویدیو @Video1 و غیره. شمارهگذاری را در پرامپت یکسان نگه دارید.
س: آیا تصاویر ۱۰۰٪ یکپارچگی تضمین میکنند؟
ج: یکپارچگی multi-shot از فقط متن بسیار بهتر است؛ صحنه multi-subject یا زوایای extreme ممکن است drift کند — از set تست ثابت استفاده کنید.
س: آیا صدای آپلود شده در کلیپ نهایی ظاهر میشود؟
ج: مدل میتواند ریتم صدا را دنبال کند و بسته به پرامپت و mode دیالوگ، SFX و موسیقی native هم تولید کند.
آماده آزمایش ورودی چندوجهی هستید؟ با دکمه زیر Seedance 2.0 را باز کنید — گردش کار چندوجهی کامل، شامل رابط نسخه چینی Seedance.
جستجوهای مرتبط: Seedance 2.0، آموزش Seedance، نسخه چینی Seedance، ویدیوی هوش مصنوعی چندوجهی، پرامپتهای @ مرجع.