Seedance 2.0: คู่มืออินพุตแบบมัลติโมดัลฉบับสมบูรณ์

หากคุณยังสร้างวิดีโอ AI ด้วย «พรอมต์ข้อความอย่างเดียวและ reroll ไม่รู้จบ» คุณอาจพลาดการอัปเกรดหลักของ Seedance 2.0 สร้างบนสถาปัตยกรรม AV แบบมัลติโมดัลแบบรวม Seedance 2.0 รับข้อความ ภาพ เสียง และวิดีโอในเวิร์กโฟลว์เดียว — สูงสุด 12 ไฟล์อ้างอิง พร้อมกัน (ภาพ 9 + วิดีโอ 3 + แทร็กเสียง 3 + คำสั่งภาษาธรรมชาติ) สำหรับครีเอเตอร์ที่ต้องควบคุมลุคตัวละคร การเคลื่อนกล้อง และการซิงค์ AV อินพุตแบบมัลติโมดัลไม่ใช่ของเสริม — ส่งผลต่อคุณภาพเอาต์พุตโดยตรง

บทช่วยสอน Seedance นี้อธิบายโหมดอินพุตทั้งสี่ ระบบอ้างอิง @ และสถานการณ์การผลิตทั่วไป — รวมถึงผ่านอินเทอร์เฟซ Seedance เวอร์ชันภาษาจีน

1. ทำไมอินพุตแบบมัลติโมดัลจึงสำคัญตอนนี้

เครื่องมือก่อนหน้าหลายตัวรับเฉพาะข้อความ ยิ่งอธิบายละเอียด โมเดลยิ่งต้องเดา — รูปลักษณ์ การเคลื่อนกล้อง จังหวะดนตรี ในโปรเจกต์จริง ทีมมี look frame คลิปอ้างอิง BGM หรือ voiceover อยู่แล้วแต่ใส่เข้าโมเดลโดยตรงไม่ได้

Seedance 2.0 รวมสี่โหมดในเส้นทางสร้างเดียว: โมเดลอ่านความหมายข้อความ ภาพ การเคลื่อนไหววิดีโอและภาษากล้อง พร้อมจังหวะเสียง แล้วส่งออกวิดีโอพร้อมแทร็กเสียง native เทียบกับ 1.5 ฉากปฏิสัมพันธ์และการเคลื่อนไหวที่ซับซ้อนใช้งานได้มากขึ้น — ใกล้เวิร์กโฟลว์โฆษณา ละครสั้น และโซเชียล

2. อธิบายโหมดอินพุตทั้งสี่

2.1 ข้อความ: ระบุเจตนาให้ชัด

ข้อความยังเป็นพื้นฐาน แต่ Seedance 2.0 จัดการคำสั่งยาว รายการช็อต และคีย์เวิร์ดสไตล์ได้ดีกว่ามาก คุณสามารถ:

เขียนเรื่องเล่าฉากเต็ม (ตัวแสดง สภาพแวดล้อม การกระทำ กล้อง สไตล์);
ใช้คำอธิบายหลายช็อตแบบสตอรีบอร์ด;
จับคู่การอ้างอิง @ เพื่อกำหนดบทบาทแต่ละ asset

ตัวอย่าง: «@Image1 สำหรับใบหน้าตัวเอก @Video1 สำหรับการเคลื่อนกล้องตาม @Audio1 เป็นเพลงพื้นหลัง — ตัวละครเดินผ่านตลาดกลางคืนนีออน กล้องตามจากด้านหลัง แล้วหันมายิ้มที่เลนส์»

2.2 ภาพ: ล็อกตัวละครและสไตล์ภาพ

ภาพเป็นการอ้างอิงที่พบบ่อยที่สุด หลังอัปโหลด look frame บอร์ดฉาก VI แบรนด์ หรือ style plate โมเดลดึงใบหน้า ชุด สี และองค์ประกอบ แล้วรักษาให้ค่อนข้างคงที่ข้ามช็อต

การใช้ทั่วไป	หมายเหตุ
ลุคตัวละคร	ทำซ้ำใบหน้าและชุดข้ามช็อต
อ้างอิงฉาก	กำหนดสภาพแวดล้อม แสง และพาเลต
Style plate	รวมภาพโฆษณาและอีคอมmerce
เฟรมแรก	ควบคุมองค์ประกอบเปิด

สูงสุด 9 ภาพ; JPG, PNG, WebP

2.3 เสียง: จังหวะ บทสนทนา และอารมณ์

Seedance 2.0 รับเสียงที่อัปโหลดและส่งออกแทร็กซิงค์ native ได้ เสียงใช้สำหรับ:

เพลงพื้นหลัง: ตัดต่อและจังหวะตาม beat;
Voiceover/บทสนทนา: lip-sync (จีนกลาง กวางตุ้ง อังกฤษ ฯลฯ);
SFX บรรยากาศ: บรรยากาศฉากที่แข็งแกร่งขึ้น

สูงสุด 3 แทร็กเสียง ความยาวรวมมักภายใน 15 วินาที; MP3, WAV, M4A

2.4 วิดีโอ: อ้างอิงภาพสำหรับกล้องและการเคลื่อนไหว

คลิปอ้างอิงให้การเคลื่อนกล้อง การกระทำของร่างกาย จังหวะ และสไตล์ VFX — โดยไม่ต้องแปลทั้งหมดเป็นข้อความ กรณีทั่วไป:

กล้องตาม orbit dolly หรือ push-pull;
การ COREOGRAPHY เต้นหรือแอ็กชัน;
ขยายหรือเติมฉากจาก footage ที่มี

สูงสุด 3 วิดีโอ จำกัดต่อคลิปและรวม (มัก ≤ 15 วินาที); MP4, MOV

ในการผลิตจริง ผสมโหมดตาม deliverable: โฆษณาสั้นมักต้องการภาพ + ข้อความ คลิปเพลงให้ความสำคัญ @Audio1 ลำดับแอ็กชันได้ประโยชน์จาก @Video1 ไม่จำเป็นต้อง 12 ไฟล์ — เริ่มขั้นต่ำ เพิ่มอ้างอิงเมื่อ drift

3. ระบบอ้างอิง @: มอบหมายงานให้แต่ละ asset

การอ้างอิง @ ทำให้อินพุตแบบมัลติโมดัลใช้งานได้จริง หลังอัปโหลด ระบุ @Image1, @Video1, @Audio1 ในพรอมต์ เพื่อให้โมเดลรู้บทบาทแต่ละไฟล์แทนการเดา

แท็ก	บทบาททั่วไป
@Image1	ใบหน้า / ชุด / ฉาก
@Video1	การเคลื่อนกล้อง / tempo แอ็กชัน
@Audio1	BGM / voiceover lip-sync
ข้อความ	เรื่องราว สไตล์ ความยาว

ตัวอย่างรวม (ภาพ + วิดีโอ + เสียง):

ใช้ framing บุคคลที่หนึ่งของ @Video1 ตลอดคลิป
@Audio1 เป็นเพลงพื้นหลัง ตัดต่อตาม beat
ตัวละครจาก @Image1 เดินตลาดนีออนกลางคืน กล้องตามจากด้านหลัง
สไตล์การเคลื่อนไหวเหมือน @Video1 — หยุด หมุน ยิ้ม
ลุคกลางคืนแบบภาพยนตร์ สีสันเข้ม ความลึกของภาพตื้น

บทบาท @ ที่ชัดเจนช่วยเพิ่มการควบคุมอย่างมาก

ใน prompt ซับซ้อน ระบุบทบาท @ ก่อนเรื่องราวเพื่อยึดอ้างอิง ใน multi-shot ทวนทágเมื่อเปลี่ยนฉาก — เช่น «@Image1 คงใน shot 2» — ลด drift หากเสียงกำหนดจังหวะ ระบุ «@Audio1 on the beat» งานเน้นกล้อง เริ่มด้วยภาษาการเคลื่อน @Video1 ก่อนการกระทำของตัวแสดง ทดสอบ 4–6 วินาทีก่อนขยาย 15 วินาที

4. สเปกหลักในภาพรวม

รายการ	สเปก
โหมดอินพุต	ข้อความ + ภาพ + วิดีโอ + เสียง
ขีดจำกัดไฟล์อ้างอิง	รวม 12 (ภาพ 9 + วิดีโอ 3 + เสียง 3)
ความยาวคลิป	4–15 วินาที
ความละเอียด	480p / 720p / 1080p (Pro สูงสุด 2K)
อัตราส่วนภาพ	16:9, 9:16, 1:1, 4:3, 3:4, 21:9
เสียง	ซิงค์ AV native lip-sync หลายภาษา
อัตราเฟรม	24fps

5. สถานการณ์การผลิตทั่วไปสามแบบ

5.1 คอนเทนต์สั้นและโซเชียล

ทีมมักต้องการปริมาณด้วย IP และลุคเดียวกัน ล็อกตัวละครด้วยภาพ ภาษากล้องด้วยวิดีโออ้างอิง เปลี่ยนสคริปต์ในข้อความ — วนซ้ำเร็วขึ้นด้วย reroll น้อยลง

5.2 แอสเซ็ตการตลาดแบรนด์

แบรนด์ต้องการความสอดคล้อง VI โลโก้ key visual และ style board พร้อมพรอมต์ข้อความสร้างคลิปโฆษณาหรือโซเชียลโทนเดียว — น่าเชื่อถือกว่าเฉพาะข้อความ

5.3 วิดีโอการศึกษาและความรู้

อัปโหลดเสียงบรรยายหรือการบรรยายเพื่อภาพ lip-sync เพิ่มภาพอ้างอิงฉาก — เนื้อหาการสอนแบบมัลติโมดัลต้นทุนต่ำ

6. เริ่มต้น: เวิร์กโฟลว์สี่ขั้นตอน

กำหนด deliverable: โฆษณา ละครสั้น คลิปโซเชียล ความยาวและอัตราส่วนภาพ
เตรียมอ้างอิง: ตัวละคร กล้อง BGM ตามต้องการ — ไม่จำเป็นต้องใช้ 12 ไฟล์ทุกครั้ง
เขียนพรอมต์ + @: เรื่องราวก่อน แล้วผูก asset หลีกเลี่ยงคำสั่งขัดแย้ง
วนซ้ำเล็กๆ: 4–6 วินาทีตรวจตัวละครและกล้อง แล้วขยายเป็น 10–15 วินาที

คำถามที่พบบ่อย

ถ: ต้องใช้ทั้งสี่โหมดไหม?
ต: ไม่ ข้อความอย่างเดียวก็ได้ หนึ่งหรือสองภาพก็พอ ผสมตามต้องการ

ถ: หมายเลข @ แมปอย่างไร?
ต: ตามลำดับอัปโหลด — ภาพแรกคือ @Image1 วิดีโอแรก @Video1 ฯลฯ รักษาหมายเลขให้สอดคล้องในพรอมต์

ถ: ภาพรับประกันความสอดคล้อง 100% ไหม?
ต: ความสอดคล้อง multi-shot ดีกว่าเฉพาะข้อความมาก ฉากหลายตัวหรือมุมสุดขั้วอาจ drift — ใช้ชุดทดสอบคงที่

ถ: เสียงที่อัปโหลดปรากฏในคลิปสุดท้ายไหม?
ต: โมเดลสามารถตามจังหวะเสียงและสร้างบทสนทนา SFX และเพลง native ตามพรอมต์และโหมด

พร้อมทดลองอินพุตแบบมัลติโมดัลแล้วหรือยัง? ใช้ปุ่มด้านล่างเพื่อเปิด Seedance 2.0 — เวิร์กโฟลว์มัลติโมดัลครบ รวม UI Seedance เวอร์ชันภาษาจีน

เริ่มใช้ Seedance 2.0

การค้นหาที่เกี่ยวข้อง: Seedance 2.0, บทช่วยสอน Seedance, Seedance เวอร์ชันภาษาจีน, วิดีโอ AI แบบมัลติโมดัล, พรอมต์ @ อ้างอิง