Stable Diffusion

추가된 MP3 i2v에 동기화된 LTX-2 오디오 - 예 6개 사실적 3개 애니메이션 3개 - 비증류 - 함께 연결된 20초 클립(음악: Dido의 "Thank You")

익명디자이너2773·1개월 전·조회 756

오디오를 추가하기 위해 외부 MP3를 사용하기 위해 Kijai의 Mel-Band RoFormer 오디오 모델을 사용하여 LTX-2 공식 i2v 워크플로를 크게 수정했습니다. 이 게시물은 LTX-2가 음악 보컬에 대해 현실적이거나 비현실적인 i2v 립싱크를 얼마나 잘 처리하는지 보여줍니다.
내 github의 작업 흐름 링크:

https://github.com/RageCat73/RCWorkflows/blob/main/011326-LTX2-AudioSync-i2v-WIP.json

***26년 1월 14일 업데이트 - 사실적인 이미지의 품질을 높이기 위해 논평자들은 고급 섹션에서 0.6의 증류된 로라 강도를 제안하고 있습니다. 해당 섹션에는 켤 수 있는 비활성화된 "디테일러" lora가 있지만 .3부터 시작하여 낮은 값을 시도하고 원하는 대로 위쪽으로 조정합니다. Loras를 추가하면 더 많은 ram/vram이 소모됩니다 *****

사용된 정확한 모델과 loras에 대한 다운로드는 워크플로 내부와 아래의 마크다운 노트에 있습니다. 워크플로 내부에 사용 방법에 대한 메모를 추가했습니다. ComfyUI를 v0.9.1(최신 안정 버전)로 업데이트하는 것이 훨씬 더 나은 메모리 관리 기능을 제공하는 것 같기 때문에 강력히 권장합니다.

이 워크플로의 일부 기능은 다음과 같습니다.

* 시작 지점과 지속 시간을 설정하기 위한 오디오 로드 및 "트림" 오디오가 있습니다. 수동으로 프레임을 입력하거나 오디오 지속 시간을 기준으로 프레임을 계산하는 "수학" 노드를 연결할 수 있습니다.
* 이미지 크기 조정 노드 크기는 비디오의 크기가 됩니다.
* 빠른 그룹 RG3 바이패스 노드를 사용하면 업스케일 그룹을 비활성화하여 전체 업스케일로 커밋하기 전에 프롬프트와 시드의 저해상도 미리보기를 수행할 수 있습니다.
* VAE 디코드 노드는 메모리 문제를 해결하는 데 도움이 되는 "타일형" 버전입니다.
* 고급 체인의 "세부" lora에 대한 카메라 정적 lora용 노드와 lora 로더가 있습니다.
* 로드 모델은 최소한의 수정만으로 다른 LTX 모델에 친화적이어야 합니다.

나는 작업 흐름 스파게티를 정리하기 위해 "노드 설정"과 "노드 가져오기"를 많이 사용했습니다. 이것이 무엇인지 모른다면 매우 유용하기 때문에 구글링해 보겠습니다. 그들은 KJnodes의 일부입니다.

질문에 답변해드리도록 노력하겠습니다만, 빨리 답변을 드리지 못할 경우 양해해 주시기 바랍니다. 4090(24GB VRAM) 및 64GB 시스템 RAM에서 20초의 1280p 클립(768 x 1152)은 각각 6~8분 정도 걸렸는데, 제 생각엔 꽤 괜찮은 것 같습니다.

긴 비디오에 대해 낮은 해상도를 사용하거나 짧은 비디오에 대해 더 높은 해상도를 사용하는 한 이 워크플로는 낮은 VRAM/시스템 RAM 사용자에게도 괜찮을 것이라고 생각합니다. 그것은 모두 절충안입니다.

모델 및 Lora 목록

*체크포인트**

- [ltx-2-19b-dev-fp8.safetensors]

https://huggingface.co/Lightricks/LTX-2/resolve/main/ltx-2-19b-dev-fp8.safetensors

**text_encoders - 양자화된 Gemma

- [gemma_3_12B_it_fp8_e4m3fn.safetensors]

[https://huggingface.co/GitMylo/LTX-2-comfy_gemma_fp8_e4m3fn/resolve/main/gemma_3_12B_it_fp8_e4m3fn.safetensors?download=true] (https://huggingface.co/GitMylo/LTX-2-comfy_gemma_fp8_e4m3fn/resolve/main/gemma_3_12B_it_fp8_e4m3fn.safetensors?download=true)

**로라스**

- [LTX-2-19b-LoRA-카메라-제어-정적]

[https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static/resolve/main/ltx-2-19b-lora-camera-control-static.safetensors?download=true] (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static/resolve/main/ltx-2-19b-lora-camera-control-static.safetensors?download=true)

- [ltx-2-19b-distilled-lora-384.safetensors]

https://huggingface.co/Lightricks/LTX-2/resolve/main/ltx-2-19b-distilled-lora-384.safetensors?download=true

**latent_upscale_models**

- [ltx-2-spatial-upscaler-x2-1.0.safetensors]

https://huggingface.co/Lightricks/LTX-2/resolve/main/ltx-2-spatial-upscaler-x2-1.0.safetensors

Mel-Band RoFormer 모델 - 오디오용

- [MelBandRoformer_fp32.safetensors]

https://huggingface.co/Kijai/MelBandRoFormer_comfy/resolve/main/MelBandRoformer_fp32.safetensors?download=true

증류된 모델에 대한 Audio Sync i2v 워크플로우를 원하는 경우 내 다른 게시물을 확인하거나 이 모델을 수정하여 단계를 8로 변경하고 샘플러를 LCM으로 변경하여 증류된 모델을 사용할 수 있습니다.

이것은 내 다른 게시물에 대한 일종의 후속 조치입니다.

[https://www.reddit.com/r/StableDiffusion/comments/1q6ythj/ltx2_audio_input_and_i2v_video_4x_20_sec_clips/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button] (https://www.reddit.com/r/StableDiffusion/comments/1q6ythj/ltx2_audio_input_and_i2v_video_4x_20_sec_clips/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button)