LTX‑2 I2V + ZIT를 사용한 전체 길이 뮤직 비디오
최근 여기에서 LTX-2 뮤직 비디오를 모두 보았기 때문에 마침내 마음을 다잡고 직접 전체 실행을 시도했습니다. 솔직히... 품질+표현력 조합이 좀 미친 것 같아요. 속도도 실감이 나지 않습니다.
**워크플로 분석:**
립싱크 섹션: 최대 20초 단위로 렌더링된 후(각각 약 13분 소요) 포스트에서 연결됩니다.
기본 이미지: ZIT로 생성됨
B-롤: LTX-2 img2video 기본 워크플로로 제작
오디오 동기화: 다음 게시물을 그대로 따르세요.
[https://www.reddit.com/r/StableDiffusion/comments/1qd525f/ltx2_i2v_synced_to_an_mp3_distill_lora_quality/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button] (https://www.reddit.com/r/StableDiffusion/comments/1qd525f/ltx2_i2v_synced_to_an_mp3_distill_lora_quality/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button)
사양:
RTX 3090 + 64GB RAM
음악: 수노
가사/텍스트: Claude, 기분 나쁜 텍스트를 보내서 죄송합니다. 그냥 뭔가 작업하고 테스트를 시작하고 싶었습니다.
정말 재미있는 실험입니다. 여기에서 공유하는 모든 멋진 작업 흐름과 콘텐츠에 감사드립니다!
**수정 1**
**뮤직 비디오에 대한 전체 워크플로우 분석(LTX-2 I2V + ZIT)**
몇몇 분들이 제가 사용한 정확한 작업 흐름을 물어보셨는데요. 텍스트 → 오디오 → 이미지 → I2V → 최종 편집의 전체 파이프라인은 다음과 같습니다.
**1. 노래 + 스타일 제너레이션**
저는 LLM(내 경우에는 Claude지만 말 그대로 어떤 괜찮은 모델이라도 괜찮습니다)에게 절, 프리코러스, 코러스, 스타일 프롬프트(Lana Del Rey × 하이퍼팝) 등 전체 노래 구조를 작성해 달라고 요청하는 것으로 시작했습니다.
아이디어는 사용자를 제어하는 AI "Her" 스타일 개체로부터 POV 트랙을 얻는 것이었습니다.
나는 그것을 Suno에 공급하고 내가 원하는 분위기에 도달할 때까지 수많은 환각을 일으켰습니다.
**2. 캐릭터 디자인(의상 + 스타일)**
다음 단계: LLM에 다시 요청하여(때때로 SillyTavern 에이전트를 사용함) 다음을 생성했습니다. 의상, 미적, 주인공의 전반적인 스타일 정체성, 이것이 고정된 스타일이 됩니다.
캐릭터 일관성을 유지하기 위해 모든 프롬프트에 대해 정확히 동일한 복장/스타일 블록을 재사용합니다.
**3. 샷 생성(클로즈업 + B-롤 프롬프트)**
동일한 스타일 블록을 사용하여 LLM에서 클로즈업 샷, 중간 샷, B 롤 장면, MV 스타일 영화 장면, 모두 텍스트 프롬프트로 텍스트 프롬프트를 생성하도록 했습니다.
**4. 이미지 생성(ZIT)**
저는 모든 텍스트 프롬프트를 ComfyUI로 가져오고 ZIT(Z-Image Turbo)를 사용하여 스틸을 생성합니다.
이렇게 하면 립싱크 섹션과 B-롤 섹션 모두에 대한 기본 이미지가 제공됩니다.
**5. 립싱크 비디오 생성(LTX-2 I2V)**
저는 LTX-2 I2V 오디오 동기화 워크플로를 사용하여 전체 노래를 최대 20초 단위로 렌더링합니다.
그것들을 함께 연결하면 완전한 립싱크 트랙이 만들어집니다.
**6. B-Roll 비디오 생성(LTX-2 img2video)**
**B-롤의 경우:** ZIT로 생성된 스틸을 가져와 LTX-2 img2video 워크플로에 공급하고 여러 개의 짧은 클립을 생성한 다음 립싱크 섹션 사이에 인터컷합니다. 이것이 전체 뮤직 비디오 구조를 완성합니다.
**내가 사용한 워크플로**
**주요 작업 흐름(MP3에 동기화된 LTX-2 I2V)**
**ZIT text2image 워크플로**
**LTX‑2 img2video 워크플로**
**저는 기본 ComfyUI 버전을 사용했습니다. 표준 버전이면 모두 작동합니다.**