Stable Diffusion

LTX‑2 I2V + ZIT를 사용한 전체 길이 뮤직 비디오

익명엔지니어8428·1개월 전·조회 234

최근 여기에서 LTX-2 뮤직 비디오를 모두 보았기 때문에 마침내 마음을 다잡고 직접 전체 실행을 시도했습니다. 솔직히... 품질+표현력 조합이 좀 미친 것 같아요. 속도도 실감이 나지 않습니다.

**워크플로 분석:**

립싱크 섹션: 최대 20초 단위로 렌더링된 후(각각 약 13분 소요) 포스트에서 연결됩니다.

기본 이미지: ZIT로 생성됨

B-롤: LTX-2 img2video 기본 워크플로로 제작

오디오 동기화: 다음 게시물을 그대로 따르세요.

사양:

RTX 3090 + 64GB RAM

음악: 수노

가사/텍스트: Claude, 기분 나쁜 텍스트를 보내서 죄송합니다. 그냥 뭔가 작업하고 테스트를 시작하고 싶었습니다.

정말 재미있는 실험입니다. 여기에서 공유하는 모든 멋진 작업 흐름과 콘텐츠에 감사드립니다!

**수정 1**

**뮤직 비디오에 대한 전체 워크플로우 분석(LTX-2 I2V + ZIT)**

몇몇 분들이 제가 사용한 정확한 작업 흐름을 물어보셨는데요. 텍스트 → 오디오 → 이미지 → I2V → 최종 편집의 전체 파이프라인은 다음과 같습니다.

**1. 노래 + 스타일 제너레이션**

저는 LLM(내 경우에는 Claude지만 말 그대로 어떤 괜찮은 모델이라도 괜찮습니다)에게 절, 프리코러스, 코러스, 스타일 프롬프트(Lana Del Rey × 하이퍼팝) 등 전체 노래 구조를 작성해 달라고 요청하는 것으로 시작했습니다.

아이디어는 사용자를 제어하는 AI "Her" 스타일 개체로부터 POV 트랙을 얻는 것이었습니다.

나는 그것을 Suno에 공급하고 내가 원하는 분위기에 도달할 때까지 수많은 환각을 일으켰습니다.

**2. 캐릭터 디자인(의상 + 스타일)**

다음 단계: LLM에 다시 요청하여(때때로 SillyTavern 에이전트를 사용함) 다음을 생성했습니다. 의상, 미적, 주인공의 전반적인 스타일 정체성, 이것이 고정된 스타일이 됩니다.

캐릭터 일관성을 유지하기 위해 모든 프롬프트에 대해 정확히 동일한 복장/스타일 블록을 재사용합니다.

**3. 샷 생성(클로즈업 + B-롤 프롬프트)**

동일한 스타일 블록을 사용하여 LLM에서 클로즈업 샷, 중간 샷, B 롤 장면, MV 스타일 영화 장면, 모두 텍스트 프롬프트로 텍스트 프롬프트를 생성하도록 했습니다.

**4. 이미지 생성(ZIT)**

저는 모든 텍스트 프롬프트를 ComfyUI로 가져오고 ZIT(Z-Image Turbo)를 사용하여 스틸을 생성합니다.

이렇게 하면 립싱크 섹션과 B-롤 섹션 모두에 대한 기본 이미지가 제공됩니다.

**5. 립싱크 비디오 생성(LTX-2 I2V)**

저는 LTX-2 I2V 오디오 동기화 워크플로를 사용하여 전체 노래를 최대 20초 단위로 렌더링합니다.

그것들을 함께 연결하면 완전한 립싱크 트랙이 만들어집니다.

**6. B-Roll 비디오 생성(LTX-2 img2video)**

**B-롤의 경우:** ZIT로 생성된 스틸을 가져와 LTX-2 img2video 워크플로에 공급하고 여러 개의 짧은 클립을 생성한 다음 립싱크 섹션 사이에 인터컷합니다. 이것이 전체 뮤직 비디오 구조를 완성합니다.

**내가 사용한 워크플로**

**주요 작업 흐름(MP3에 동기화된 LTX-2 I2V)**

**ZIT text2image 워크플로**

**LTX‑2 img2video 워크플로**

**저는 기본 ComfyUI 버전을 사용했습니다. 표준 버전이면 모두 작동합니다.**