Seedance 2.0: راهنمای کامل ورودی چندوجهی

اگر هنوز ویدیوی هوش مصنوعی را با «فقط پرامپت متنی و reroll بی‌پایان» می‌سازید، احتمالاً ارتقای اصلی Seedance 2.0 را از دست می‌دهید. بر پایه معماری یکپارچه صوت-ویدیوی چندوجهی، Seedance 2.0 متن، تصویر، صدا و ویدیو را در یک گردش کار می‌پذیرد — تا ۱۲ فایل مرجع همزمان (۹ تصویر + ۳ ویدیو + ۳ تراک صوتی + دستورات زبان طبیعی). برای خالقانی که باید ظاهر شخصیت، حرکت دوربین و همگام‌سازی AV را کنترل کنند، ورودی چندوجهی اختیاری نیست — مستقیماً بر کیفیت خروجی اثر می‌گذارد.

این آموزش Seedance هر چهار حالت ورودی، سیستم مرجع @ و سناریوهای رایج تولید را توضیح می‌دهد — حتی از طریق رابط نسخه چینی Seedance.

1. چرا ورودی چندوجهی اکنون مهم است

ابزارهای قبلی اغلب فقط متن می‌پذیرفتند. هرچه توصیف دقیق‌تر، مدل بیشتر باید حدس می‌زد — ظاهر، حرکت دوربین، tempo موسیقی. در پروژه‌های واقعی، تیم‌ها look frame، کلیپ مرجع، BGM یا voiceover دارند که نمی‌توانستند مستقیم به مدل بدهند.

Seedance 2.0 چهار حالت را در یک مسیر تولید قرار می‌دهد: مدل معنای متن، تصاویر، حرکت ویدیو و زبان دوربین، به‌علاوه ریتم صدا را با هم می‌خواند و ویدیو با تراک‌های صوتی native خروجی می‌دهد. نسبت به ۱.۵، صحنه‌های تعامل و حرکت پیچیده کاربردی‌تر — نزدیک‌تر به گردش کار تبلیغات، درام کوتاه و شبکه‌های اجتماعی.

2. توضیح چهار حالت ورودی

2.1 متن: نیت را روشن بیان کنید

متن پایه می‌ماند؛ Seedance 2.0 دستورات بلند، لیست شات و کلیدواژه‌های سبک را بسیار بهتر مدیریت می‌کند. می‌توانید:

روایت کامل صحنه بنویسید (موضوع، محیط، عمل، دوربین، سبک);
توصیف چندشاتی شبیه storyboard استفاده کنید;
با مراجع @ به هر asset نقش دهید.

مثال: «@Image1 برای چهره شخصیت اصلی، @Video1 برای حرکت دوربین follow، @Audio1 به‌عنوان موسیقی پس‌زمینه — شخصیت از بازار شبانه نئون می‌گذرد، دوربین از پشت دنبال می‌کند، سپس لبخند می‌زند به لنز.»

2.2 تصویر: قفل شخصیت و سبک بصری

تصاویر رایج‌ترین مرجع هستند. پس از آپلود look frame، برد صحنه، VI برند یا style plate، مدل چهره، لباس، رنگ و ترکیب‌بندی را استخراج و نسبتاً پایدار نگه می‌دارد.

کاربرد معمول	یادداشت
ظاهر شخصیت	تکرار چهره و لباس بین شات‌ها
مرجع صحنه	ثابت کردن محیط، نور و پالت
style plate	یکپارچه‌سازی بصری تبلیغ و e-commerce
فریم اول	کنترل ترکیب‌بندی آغاز

تا ۹ تصویر؛ JPG، PNG، WebP.

2.3 صدا: ریتم، دیالوگ و فضا

Seedance 2.0 صدای آپلود شده را می‌پذیرد و می‌تواند تراک‌های همگام native تولید کند. صدا برای:

موسیقی پس‌زمینه: تدوین و pacing همگام beat;
voiceover/دیالوگ: lip-sync (مانdarin، کantonese، انگلیسی و غیره);
SFX محیطی: فضای صحنه قوی‌تر.

تا ۳ تراک صوتی، طول کل معمولاً در ۱۵ ثانیه؛ MP3، WAV، M4A.

2.4 ویدیو: مرجع بصری برای دوربین و حرکت

کلیپ‌های مرجع حرکت دوربین، عمل بدن، ریتم و سبک VFX می‌دهند — بدون ترجمه همه به متن. موارد رایج:

دوربین follow، orbit، dolly یا push-pull;
coreografia رقص یا action;
تمدید یا تکمیل صحنه از footage موجود.

تا ۳ ویدیو، محدودیت هر کلیپ و کل (معمولاً ≤ ۱۵ ث); MP4، MOV.

در تولید واقعی، modalities را بر اساس deliverable ترکیب کنید: تبلیغات کوتاه اغلب تصویر + متن؛ کلیپ موسیقی @Audio1 را اولویت می‌دهد؛ صحنه‌های action از @Video1 سود می‌برند. ۱۲ فایل لازم نیست — از حداقل شروع کنید، فقط هنگام drift مرجع اضافه کنید.

3. سیستم مرجع @: به هر asset یک کار

مراجع @ ورودی چندوجهی را عملی می‌کنند. پس از آپلود، @Image1، @Video1، @Audio1 را در پرامپت علامت بزنید تا مدل نقش هر فایل را بداند نه حدس.

برچسب	نقش رایج
@Image1	چهره / لباس / صحنه
@Video1	حرکت دوربین / tempo action
@Audio1	BGM / voiceover lip-sync
متن	داستان، سبک، مدت

مثال ترکیبی (تصویر + ویدیو + صدا):

در کل کلیپ framing اول‌شخص @Video1 استفاده شود.
@Audio1 موسیقی پس‌زمینه، تدوین روی beat.
شخصیت از @Image1 در بازار نئون شبانه، دوربین از پشت دنبال،
سبک حرکت مانند @Video1 — توقف، چرخش، لبخند.
نگاه شبانه سینمایی، رنگ غنی، عمق میدان کم.

نقش‌های @ روشن کنترل‌پذیری را به‌شدت بهبود می‌دهند.

در پرامپت‌های پیچیده، نقش‌های @ را قبل از روایت فهرست کنید. در توصیف multi-shot، هنگام تغییر صحنه tag تکرار کنید — مثلاً «@Image1 در shot 2 باقی بماند» — برای کاهش drift. اگر صدا ritm را تعیین می‌کند «@Audio1 on the beat» بنویسید؛ برای کار camera-heavy، ابتدا زبان حرکت @Video1 را قبل از action بنویسید. ابتدا ۴–۶ ث برای هر @ تست کنید، سپس تا ۱۵ ث.

4. مشخصات اصلی در یک نگاه

مورد	مشخصات
حالت‌های ورودی	متن + تصویر + ویدیو + صدا
سقف فایل مرجع	۱۲ کل (۹ تصویر + ۳ ویدیو + ۳ صدا)
طول کلیپ	۴–۱۵ ثانیه
وضوح	480p / 720p / 1080p (Pro تا 2K)
نسبت تصویر	16:9، 9:16، 1:1، 4:3، 3:4، 21:9
صدا	همگام AV native، lip-sync چندزبانه
نرخ فریم	24fps

5. سه سناریوی رایج تولید

5.1 محتوای کوتاه و شبکه‌های اجتماعی

تیم‌ها اغلب حجم با IP و look یکسان می‌خواهند. شخصیت با تصویر، زبان دوربین با مرجع ویدیو، تنوع اسکریپت در متن — تکرار سریع‌تر با reroll کمتر.

5.2 دارایی‌های بازاریابی برند

برندها یکپارچگی VI می‌خواهند. لوگو، key visual و style board به‌علاوه پرامپت متنی برای کلیپ تبلیغ یا social با tone یکسان — قابل‌اعتمادتر از فقط متن.

5.3 ویدیوی آموزشی و knowledge

آپلود صدای درس یا روایت برای visual lip-sync؛ افزودن تصاویر مرجع صحنه — محتوای آموزشی چندوجهی کم‌هزینه.

6. شروع: گردش کار چهار مرحله‌ای

تحویل را تعریف کنید: تبلیغ، درام کوتاه، کلیپ social؛ مدت و نسبت تصویر.
مراجع را آماده کنید: شخصیت، دوربین، BGM در صورت نیاز — هر بار ۱۲ فایل لازم نیست.
پرامپت + @ بنویسید: اول داستان، سپس bind هر asset؛ از دستورات متناقض پرهیز کنید.
تکرار کوچک: ۴–۶ ث برای اعتبارسنجی شخصیت و دوربین، سپس تا ۱۰–۱۵ ث.

پرسش‌های متداول

س: باید هر چهار حالت را استفاده کنم؟
ج: خیر. فقط متن کافی است؛ یک یا دو تصویر هم ok. طبق نیاز ترکیب کنید.

س: شماره‌های @ چگونه map می‌شوند؟
ج: بر اساس ترتیب آپلود — اولین تصویر @Image1، اولین ویدیو @Video1 و غیره. شماره‌گذاری را در پرامپت یکسان نگه دارید.

س: آیا تصاویر ۱۰۰٪ یکپارچگی تضمین می‌کنند؟
ج: یکپارچگی multi-shot از فقط متن بسیار بهتر است؛ صحنه multi-subject یا زوایای extreme ممکن است drift کند — از set تست ثابت استفاده کنید.

س: آیا صدای آپلود شده در کلیپ نهایی ظاهر می‌شود؟
ج: مدل می‌تواند ریتم صدا را دنبال کند و بسته به پرامپت و mode دیالوگ، SFX و موسیقی native هم تولید کند.

آماده آزمایش ورودی چندوجهی هستید؟ با دکمه زیر Seedance 2.0 را باز کنید — گردش کار چندوجهی کامل، شامل رابط نسخه چینی Seedance.

شروع استفاده از Seedance 2.0

جستجوهای مرتبط: Seedance 2.0، آموزش Seedance، نسخه چینی Seedance، ویدیوی هوش مصنوعی چندوجهی، پرامپت‌های @ مرجع.