Seedance 2.0: 멀티모달 입력 완전 가이드
아직 «텍스트 프롬프트만 + 끝없는 재생성»으로 AI 영상을 만든다면 Seedance 2.0의 핵심 업그레이드를 놓치고 있을 수 있습니다. 통합 멀티모달 AV 아키텍처 위에서 Seedance 2.0은 텍스트, 이미지, 오디오, 비디오를 하나의 워크플로에서 받습니다 — 최대 12개 참조 파일(이미지 9 + 비디오 3 + 오디오 3 + 자연어 지시)을 동시에. 캐릭터 외모, 카메라 움직임, AV 동기화를 제어해야 하는 크리에이터에게 멀티모달 입력은 부가 기능이 아니라 출력 품질에 직접 영향을 줍니다.

이 Seedance 튜토리얼은 네 가지 입력 모달리티, @ 참조 시스템, 일반적인 제작 시나리오를 설명합니다 — Seedance 중국어 버전 인터페이스로도 바로 시작할 수 있습니다.
1. 지금 멀티모달 입력이 중요한 이유
이전 도구 대부분은 텍스트만 받았습니다. 설명이 세밀할수록 모델은 외모, 카메라, 음악 템포를 더 많이 추측해야 했습니다. 실제 프로젝트에는 look 프레임, 참조 클립, BGM, 내레이션이 이미 있지만 모델에 직접 넣을 수 없었습니다.
Seedance 2.0은 네 모달리티를 하나의 생성 경로에 둡니다: 모델이 텍스트 의미, 이미지 비주얼, 비디오 동작과 카메라 언어, 오디오 리듬을 함께 읽고 네이티브 오디오 트랙이 있는 영상을 출력합니다. 1.5 대비 복잡한 상호작용·동작 장면이 더 실용적 — 광고, 단편 드라마, SNS 워크플로에 가깝습니다.
2. 네 가지 입력 모달리티 설명
2.1 텍스트: 의도를 명확히
텍스트는 기반이지만 Seedance 2.0은 긴 지시, 샷 리스트, 스타일 키워드를 훨씬 잘 처리합니다. 다음이 가능합니다:
- 완전한 장면 서사(피사체, 환경, 동작, 카메라, 스타일);
- 스토리보드형 멀티샷 설명;
- @ 참조로 각 에셋에 역할 할당.
예: «@Image1로 주인공 얼굴, @Video1로 팔로우캠 동작, @Audio1을 BGM — 캐릭터가 네온 야시장을 걸으며 카메라는 뒤에서 따라가다 렌즈를 향해 미소 짓는다.»
2.2 이미지: 캐릭터와 비주얼 스타일 고정
이미지는 가장 흔한 참조입니다. look 프레임, 씬 보드, 브랜드 VI, 스타일 플레이트를 업로드하면 얼굴, 의상, 색, 구도를 추출해 샷 간 상대적으로 안정적으로 유지합니다.
| 일반적 용도 | 참고 |
|---|---|
| 캐릭터 룩 | 샷 간 얼굴·의상 재현 |
| 씬 참조 | 환경, 조명, 팔레트 고정 |
| 스타일 플레이트 | 광고·이커머스 비주얼 통일 |
| 첫 프레임 | 오프닝 구도 제어 |
최대 9장; JPG, PNG, WebP.
2.3 오디오: 리듬, 대사, 분위기
Seedance 2.0은 업로드 오디오를 받고 네이티브 동기화 트랙을 출력할 수 있습니다. 오디오 입력 용도:
- BGM: 비트 동기 편집과 페이싱;
- 내레이션/대사: 립싱크(표준어, 광둥어, 영어 등);
- 환경 SFX: 장면 분위기 강화.
최대 3트랙, 총 길이 보통 15초 이내; MP3, WAV, M4A.
2.4 비디오: 카메라와 동작의 비주얼 참조
참조 클립에서 카메라 움직임, 신체 동작, 리듬, VFX 스타일 추출 — 모두 텍스트로 옮길 필요 없음. 일반적 사례:
- 팔로우, 오빗, 돌리, 푸시풀 카메라 참조;
- 댄스·액션 안무;
- 기존 영상에서 장면 연장·보완.
최대 3개, 클립·총 길이 제한(보통 ≤ 15초); MP4, MOV.
실제 제작에서는 deliverable에 맞게 모달리티를 조합하세요. 짧은 광고는 이미지+텍스트, 음악 중심 클립은 @Audio1, 액션 시퀀스는 @Video1이 유리합니다. 12개 파일 전부 불필요 — 최소 구성으로 시작하고 drift가 나면 참조를 추가하세요.
3. @ 참조 시스템: 각 에셋에 역할 부여
@ 참조가 멀티모달 입력을 실용적으로 만듭니다. 업로드 후 프롬프트에 @Image1, @Video1, @Audio1을 표시하면 모델이 추측 대신 각 파일 역할을 압니다.
| 태그 | 일반적 역할 |
|---|---|
| @Image1 | 얼굴 / 의상 / 씬 |
| @Video1 | 카메라 동작 / 액션 템포 |
| @Audio1 | BGM / 립싱크 내레이션 |
| 텍스트 | 스토리, 스타일, 길이 |
조합 예 (이미지 + 비디오 + 오디오):
전체에서 @Video1 1인칭 프레이밍 사용.
@Audio1을 BGM으로, 비트에 맞춰 편집.
@Image1 캐릭터가 네온 야시장을 걸으며 카메라는 뒤에서 추적,
@Video1의 동작 스타일에 맞춰 — 멈춤, 돌아봄, 미소.
시네마틱 야경, 풍부한 색, 얕은 심도.
명확한 @ 역할이 제어성을 크게 높입니다.
복잡한 프롬프트에서는 서사 전에 @ 역할을 나열해 참조를 고정하세요. 멀티샷에서는 장면 전환 시 @ 태그를 반복 — 예: «샷 2에서도 @Image1 유지» — drift를 줄입니다. 음악 주도면 «@Audio1을 beat에 맞춰» 명시; 카메라 중심이면 피사체 동작보다 @Video1 동작 언어를 먼저 쓰세요. 먼저 4–6초로 각 @ 역할을 검증한 뒤 15초로 확장하세요.
4. 핵심 사양 한눈에
| 항목 | 사양 |
|---|---|
| 입력 모달리티 | 텍스트 + 이미지 + 비디오 + 오디오 |
| 참조 파일 상한 | 총 12(이미지 9 + 비디오 3 + 오디오 3) |
| 클립 길이 | 4–15초 |
| 해상도 | 480p / 720p / 1080p (Pro 최대 2K) |
| 화면 비율 | 16:9, 9:16, 1:1, 4:3, 3:4, 21:9 |
| 오디오 | 네이티브 AV 동기, 다국어 립싱크 |
| 프레임률 | 24fps |
5. 세 가지 일반적인 제작 시나리오
5.1 숏폼·SNS 콘텐츠
팀은 같은 IP와 룩으로 양을 내야 할 때가 많습니다. 이미지로 캐릭터 고정, 비디오 참조로 카메라 언어, 텍스트로 스크립트 변경 — 재생성을 줄이며 빠르게 반복.
5.2 브랜드 마케팅 에셋
브랜드는 VI 일관성을 요구합니다. 로고, 키 비주얼, 스타일 보드와 텍스트 프롬프트로 통일된 톤의 광고·SNS 클립 — 텍스트만보다 신뢰성 높음.
5.3 교육·지식 영상
강의·내레이션 오디오 업로드로 립싱크 비주얼; 씬 참조 이미지 추가 — 저비용 멀티모달 교육 콘텐츠.
6. 시작하기: 4단계 워크플로
- 산출물 정의: 광고, 단편, SNS 클립; 길이와 화면 비율.
- 참조 준비: 캐릭터, 카메라, BGM 필요에 따라 — 매번 12개 전부 불필요.
- 프롬프트 + @ 작성: 먼저 스토리, 그다음 에셋 연결; 모순 지시 피하기.
- 작게 반복: 4–6초로 캐릭터·카메라 검증 후 10–15초로 확장.
FAQ
Q: 네 모달리티를 모두 써야 하나요?
A: 아니요. 텍스트만으로도 됩니다. 이미지 1–2장도 충분. 필요에 따라 조합하세요.
Q: @ 번호는 어떻게 매핑되나요?
A: 업로드 순서 — 첫 이미지가 @Image1, 첫 비디오가 @Video1 등. 프롬프트에서 번호를 일관되게 유지하세요.
Q: 이미지가 100% 일관성을 보장하나요?
A: 멀티샷 일관성은 텍스트만을 크게 앞섭니다. 복잡한 다중 피사체나 극단 각도에서는 여전히 drift 가능 — 고정 테스트 세트를 사용하세요.
Q: 업로드한 오디오가 최종 클립에 나오나요?
A: 모델은 오디오 리듬을 따를 수 있고, 프롬프트·모드에 따라 네이티브 대사, SFX, 음악도 생성할 수 있습니다.
멀티모달 입력을 직접 테스트할 준비가 되셨나요? 아래 버튼으로 Seedance 2.0을 여세요 — Seedance 중국어 버전 UI를 포함한 완전한 멀티모달 워크플로입니다.
관련 검색: Seedance 2.0, Seedance 튜토리얼, Seedance 중국어 버전, 멀티모달 AI 영상, @ 참조 프롬프트.