Seedance 2.0: คู่มืออินพุตแบบมัลติโมดัลฉบับสมบูรณ์
หากคุณยังสร้างวิดีโอ AI ด้วย «พรอมต์ข้อความอย่างเดียวและ reroll ไม่รู้จบ» คุณอาจพลาดการอัปเกรดหลักของ Seedance 2.0 สร้างบนสถาปัตยกรรม AV แบบมัลติโมดัลแบบรวม Seedance 2.0 รับข้อความ ภาพ เสียง และวิดีโอในเวิร์กโฟลว์เดียว — สูงสุด 12 ไฟล์อ้างอิง พร้อมกัน (ภาพ 9 + วิดีโอ 3 + แทร็กเสียง 3 + คำสั่งภาษาธรรมชาติ) สำหรับครีเอเตอร์ที่ต้องควบคุมลุคตัวละคร การเคลื่อนกล้อง และการซิงค์ AV อินพุตแบบมัลติโมดัลไม่ใช่ของเสริม — ส่งผลต่อคุณภาพเอาต์พุตโดยตรง

บทช่วยสอน Seedance นี้อธิบายโหมดอินพุตทั้งสี่ ระบบอ้างอิง @ และสถานการณ์การผลิตทั่วไป — รวมถึงผ่านอินเทอร์เฟซ Seedance เวอร์ชันภาษาจีน
1. ทำไมอินพุตแบบมัลติโมดัลจึงสำคัญตอนนี้
เครื่องมือก่อนหน้าหลายตัวรับเฉพาะข้อความ ยิ่งอธิบายละเอียด โมเดลยิ่งต้องเดา — รูปลักษณ์ การเคลื่อนกล้อง จังหวะดนตรี ในโปรเจกต์จริง ทีมมี look frame คลิปอ้างอิง BGM หรือ voiceover อยู่แล้วแต่ใส่เข้าโมเดลโดยตรงไม่ได้
Seedance 2.0 รวมสี่โหมดในเส้นทางสร้างเดียว: โมเดลอ่านความหมายข้อความ ภาพ การเคลื่อนไหววิดีโอและภาษากล้อง พร้อมจังหวะเสียง แล้วส่งออกวิดีโอพร้อมแทร็กเสียง native เทียบกับ 1.5 ฉากปฏิสัมพันธ์และการเคลื่อนไหวที่ซับซ้อนใช้งานได้มากขึ้น — ใกล้เวิร์กโฟลว์โฆษณา ละครสั้น และโซเชียล
2. อธิบายโหมดอินพุตทั้งสี่
2.1 ข้อความ: ระบุเจตนาให้ชัด
ข้อความยังเป็นพื้นฐาน แต่ Seedance 2.0 จัดการคำสั่งยาว รายการช็อต และคีย์เวิร์ดสไตล์ได้ดีกว่ามาก คุณสามารถ:
- เขียนเรื่องเล่าฉากเต็ม (ตัวแสดง สภาพแวดล้อม การกระทำ กล้อง สไตล์);
- ใช้คำอธิบายหลายช็อตแบบสตอรีบอร์ด;
- จับคู่การอ้างอิง @ เพื่อกำหนดบทบาทแต่ละ asset
ตัวอย่าง: «@Image1 สำหรับใบหน้าตัวเอก @Video1 สำหรับการเคลื่อนกล้องตาม @Audio1 เป็นเพลงพื้นหลัง — ตัวละครเดินผ่านตลาดกลางคืนนีออน กล้องตามจากด้านหลัง แล้วหันมายิ้มที่เลนส์»
2.2 ภาพ: ล็อกตัวละครและสไตล์ภาพ
ภาพเป็นการอ้างอิงที่พบบ่อยที่สุด หลังอัปโหลด look frame บอร์ดฉาก VI แบรนด์ หรือ style plate โมเดลดึงใบหน้า ชุด สี และองค์ประกอบ แล้วรักษาให้ค่อนข้างคงที่ข้ามช็อต
| การใช้ทั่วไป | หมายเหตุ |
|---|---|
| ลุคตัวละคร | ทำซ้ำใบหน้าและชุดข้ามช็อต |
| อ้างอิงฉาก | กำหนดสภาพแวดล้อม แสง และพาเลต |
| Style plate | รวมภาพโฆษณาและอีคอมmerce |
| เฟรมแรก | ควบคุมองค์ประกอบเปิด |
สูงสุด 9 ภาพ; JPG, PNG, WebP
2.3 เสียง: จังหวะ บทสนทนา และอารมณ์
Seedance 2.0 รับเสียงที่อัปโหลดและส่งออกแทร็กซิงค์ native ได้ เสียงใช้สำหรับ:
- เพลงพื้นหลัง: ตัดต่อและจังหวะตาม beat;
- Voiceover/บทสนทนา: lip-sync (จีนกลาง กวางตุ้ง อังกฤษ ฯลฯ);
- SFX บรรยากาศ: บรรยากาศฉากที่แข็งแกร่งขึ้น
สูงสุด 3 แทร็กเสียง ความยาวรวมมักภายใน 15 วินาที; MP3, WAV, M4A
2.4 วิดีโอ: อ้างอิงภาพสำหรับกล้องและการเคลื่อนไหว
คลิปอ้างอิงให้การเคลื่อนกล้อง การกระทำของร่างกาย จังหวะ และสไตล์ VFX — โดยไม่ต้องแปลทั้งหมดเป็นข้อความ กรณีทั่วไป:
- กล้องตาม orbit dolly หรือ push-pull;
- การ COREOGRAPHY เต้นหรือแอ็กชัน;
- ขยายหรือเติมฉากจาก footage ที่มี
สูงสุด 3 วิดีโอ จำกัดต่อคลิปและรวม (มัก ≤ 15 วินาที); MP4, MOV
ในการผลิตจริง ผสมโหมดตาม deliverable: โฆษณาสั้นมักต้องการภาพ + ข้อความ คลิปเพลงให้ความสำคัญ @Audio1 ลำดับแอ็กชันได้ประโยชน์จาก @Video1 ไม่จำเป็นต้อง 12 ไฟล์ — เริ่มขั้นต่ำ เพิ่มอ้างอิงเมื่อ drift
3. ระบบอ้างอิง @: มอบหมายงานให้แต่ละ asset
การอ้างอิง @ ทำให้อินพุตแบบมัลติโมดัลใช้งานได้จริง หลังอัปโหลด ระบุ @Image1, @Video1, @Audio1 ในพรอมต์ เพื่อให้โมเดลรู้บทบาทแต่ละไฟล์แทนการเดา
| แท็ก | บทบาททั่วไป |
|---|---|
| @Image1 | ใบหน้า / ชุด / ฉาก |
| @Video1 | การเคลื่อนกล้อง / tempo แอ็กชัน |
| @Audio1 | BGM / voiceover lip-sync |
| ข้อความ | เรื่องราว สไตล์ ความยาว |
ตัวอย่างรวม (ภาพ + วิดีโอ + เสียง):
ใช้ framing บุคคลที่หนึ่งของ @Video1 ตลอดคลิป
@Audio1 เป็นเพลงพื้นหลัง ตัดต่อตาม beat
ตัวละครจาก @Image1 เดินตลาดนีออนกลางคืน กล้องตามจากด้านหลัง
สไตล์การเคลื่อนไหวเหมือน @Video1 — หยุด หมุน ยิ้ม
ลุคกลางคืนแบบภาพยนตร์ สีสันเข้ม ความลึกของภาพตื้น
บทบาท @ ที่ชัดเจนช่วยเพิ่มการควบคุมอย่างมาก
ใน prompt ซับซ้อน ระบุบทบาท @ ก่อนเรื่องราวเพื่อยึดอ้างอิง ใน multi-shot ทวนทágเมื่อเปลี่ยนฉาก — เช่น «@Image1 คงใน shot 2» — ลด drift หากเสียงกำหนดจังหวะ ระบุ «@Audio1 on the beat» งานเน้นกล้อง เริ่มด้วยภาษาการเคลื่อน @Video1 ก่อนการกระทำของตัวแสดง ทดสอบ 4–6 วินาทีก่อนขยาย 15 วินาที
4. สเปกหลักในภาพรวม
| รายการ | สเปก |
|---|---|
| โหมดอินพุต | ข้อความ + ภาพ + วิดีโอ + เสียง |
| ขีดจำกัดไฟล์อ้างอิง | รวม 12 (ภาพ 9 + วิดีโอ 3 + เสียง 3) |
| ความยาวคลิป | 4–15 วินาที |
| ความละเอียด | 480p / 720p / 1080p (Pro สูงสุด 2K) |
| อัตราส่วนภาพ | 16:9, 9:16, 1:1, 4:3, 3:4, 21:9 |
| เสียง | ซิงค์ AV native lip-sync หลายภาษา |
| อัตราเฟรม | 24fps |
5. สถานการณ์การผลิตทั่วไปสามแบบ
5.1 คอนเทนต์สั้นและโซเชียล
ทีมมักต้องการปริมาณด้วย IP และลุคเดียวกัน ล็อกตัวละครด้วยภาพ ภาษากล้องด้วยวิดีโออ้างอิง เปลี่ยนสคริปต์ในข้อความ — วนซ้ำเร็วขึ้นด้วย reroll น้อยลง
5.2 แอสเซ็ตการตลาดแบรนด์
แบรนด์ต้องการความสอดคล้อง VI โลโก้ key visual และ style board พร้อมพรอมต์ข้อความสร้างคลิปโฆษณาหรือโซเชียลโทนเดียว — น่าเชื่อถือกว่าเฉพาะข้อความ
5.3 วิดีโอการศึกษาและความรู้
อัปโหลดเสียงบรรยายหรือการบรรยายเพื่อภาพ lip-sync เพิ่มภาพอ้างอิงฉาก — เนื้อหาการสอนแบบมัลติโมดัลต้นทุนต่ำ
6. เริ่มต้น: เวิร์กโฟลว์สี่ขั้นตอน
- กำหนด deliverable: โฆษณา ละครสั้น คลิปโซเชียล ความยาวและอัตราส่วนภาพ
- เตรียมอ้างอิง: ตัวละคร กล้อง BGM ตามต้องการ — ไม่จำเป็นต้องใช้ 12 ไฟล์ทุกครั้ง
- เขียนพรอมต์ + @: เรื่องราวก่อน แล้วผูก asset หลีกเลี่ยงคำสั่งขัดแย้ง
- วนซ้ำเล็กๆ: 4–6 วินาทีตรวจตัวละครและกล้อง แล้วขยายเป็น 10–15 วินาที
คำถามที่พบบ่อย
ถ: ต้องใช้ทั้งสี่โหมดไหม?
ต: ไม่ ข้อความอย่างเดียวก็ได้ หนึ่งหรือสองภาพก็พอ ผสมตามต้องการ
ถ: หมายเลข @ แมปอย่างไร?
ต: ตามลำดับอัปโหลด — ภาพแรกคือ @Image1 วิดีโอแรก @Video1 ฯลฯ รักษาหมายเลขให้สอดคล้องในพรอมต์
ถ: ภาพรับประกันความสอดคล้อง 100% ไหม?
ต: ความสอดคล้อง multi-shot ดีกว่าเฉพาะข้อความมาก ฉากหลายตัวหรือมุมสุดขั้วอาจ drift — ใช้ชุดทดสอบคงที่
ถ: เสียงที่อัปโหลดปรากฏในคลิปสุดท้ายไหม?
ต: โมเดลสามารถตามจังหวะเสียงและสร้างบทสนทนา SFX และเพลง native ตามพรอมต์และโหมด
พร้อมทดลองอินพุตแบบมัลติโมดัลแล้วหรือยัง? ใช้ปุ่มด้านล่างเพื่อเปิด Seedance 2.0 — เวิร์กโฟลว์มัลติโมดัลครบ รวม UI Seedance เวอร์ชันภาษาจีน
การค้นหาที่เกี่ยวข้อง: Seedance 2.0, บทช่วยสอน Seedance, Seedance เวอร์ชันภาษาจีน, วิดีโอ AI แบบมัลติโมดัล, พรอมต์ @ อ้างอิง