Stable Diffusion

MP3에 동기화된 LTX-2 I2V: Distill Lora Quality STR 1 대 .6 - 새로운 작업 흐름 버전 2.

익명빌더1632·1개월 전·조회 240

워크플로의 새 버전(v2):

https://github.com/RageCat73/RCWorkflows/blob/main/011426-LTX2-AudioSync-i2v-Ver2.json

이것은 내 이전 게시물에 대한 후속 조치입니다. 자세한 내용과 맥락을 보려면 해당 게시물을 읽어보시기 바랍니다.

[https://www.reddit.com/r/StableDiffusion/comments/1qcc81m/ltx2_audio_synced_to_add_mp3_i2v_6_examples_3/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button] (https://www.reddit.com/r/StableDiffusion/comments/1qcc81m/ltx2_audio_synced_to_add_mp3_i2v_6_examples_3/?utm_source=share&utm_medium=web3x&utm_name=web3xcss&utm_term=1&utm_content=share_button)

LTX Distill Lora 384의 강점이 현실적인 사람들의 자질에 큰 영향을 미칠 수 있다는 점을 지적해주신 u/foxdit 사용자에게 감사드립니다. 이 새로운 작업 흐름은 이를 .6으로 설정합니다.

이를 가능하게 하는 Mel-Band 모델이 있는 첫 번째 워크플로를 소개한 Kijai의 공로가 반드시 인정되어야 합니다. 그는 작업 흐름을 개선하는 데 전념할 시간이 많지 않기 때문에 그가 우리에게 제공한 것을 받아 이를 기반으로 구축하는 것은 커뮤니티에 달려 있다고 들었습니다.

고급 그룹/노드에는 선택적 세부 사항 lora도 있습니다. 새 작업 흐름에서는 메모리 절약을 위해 기본적으로 비활성화되어 있지만 .3으로 설정하는 것도 또 다른 권장 사항입니다. 결과는 영상을 통해 직접 확인하실 수 있습니다.

비디오는 Reddit 서버에 의해 압축되지만 여전히 상당한 차이를 볼 수 있다는 점을 명심하세요. 110MB 원본 동영상을 보고 싶으시면 알려주시면 해당 동영상에 대한 Google 드라이브 링크를 보내드리겠습니다. 내 Google 드라이브를 모든 사람에게 공개적으로 공개하고 싶지 않습니다.

새로운 작업 흐름은 초보자에게도 더 친숙하며, 더 나은 메모가 있고 문자 그대로 1~7단계라는 라벨이 붙은 영역과 노드가 있습니다. 오디오 로드 노드를 이미지 로드 및 오디오 트리밍 노드에 더 가깝게 이동합니다. 전반적으로 소소한 개선이 이루어졌습니다. 이미 다른 하나를 가지고 있다면 호기심이 없다면 그만한 가치가 없을 수도 있습니다.

새로운 워크플로에는 모델과 LORA에 대한 모든 다운로드 링크가 있지만 아래에도 붙여넣겠습니다. 가능한 한 질문에 답변하도록 노력하겠습니다. 하지만 귀하의 시간대와 여유 시간에 따라 하루나 이틀 정도 지연될 수 있습니다.

이 새로운 테스트에 따르면 증류 전용 모델(8단계 모델)은 실제로 권장할 수 없습니다. 증류 작업 흐름에는 모델에 기본적으로 적용되는 LORA의 강도를 변경할 수 있는 방법이 없기 때문입니다. 일부 사람들은 하드웨어 제약으로 인해 해당 모델로 제한될 수 있습니다.

**프롬프트에 대한 중요 참고 사항(26년 1월 16일 업데이트): 최상의 결과를 얻으려면 프롬프트에서 말하는 노래 가사나 단어 대본을 추가하세요. 추가 실험에서 이는 많은 도움이 되었습니다.**

**여자가 "My Tea's gone cold. 왜 침대에서 일어났는지 궁금해요..."라는 가사를 부르면 립싱크를 유발하는 데 도움이 됩니다. 때로는 가사의 처음 몇 단어만 필요한 경우도 있지만, 좋은 립싱크를 위해서는 가능한 한 많은 단어를 포함하는 것이 가장 좋습니다. 또한 프롬프트에 감정과 표현을 추가하거나 다음과 같이 하십시오. 일반적이고 싶다면 여성이 열정과 감정을 담아 노래합니다.**

**해상도에 대한 중요 참고 사항: 내 작업 흐름은 시작 해상도로 480x832(세로)로 설정되어 있습니다. 이를 귀하의 시스템이 처리할 수 있다고 생각하는 것으로 변경하십시오. 와이드스크린 이미지 이상을 사용하는 경우 반드시 832x480으로 변경해야 합니다. 그렇지 않으면 매우 작은 비디오를 얻게 됩니다. 이미지의 최종 해상도가 무엇인지 미리보기 노드를 확인하세요. 32로 나눌 수 있어야 하지만 2단계의 크기 조정 노드가 이를 처리한다는 점을 기억하세요. 초보자라면 워크플로의 참고 사항을 읽어보세요.**

***** 이 영상에서 립싱크가 좀 이상하다는 걸 눈치채셨다면, 제가 급하게 영상을 쳤기 때문입니다. 저는 Resolve에서 렌더링한 후에야 깨달았고, 그때쯤에는 서둘러 다른 일을 해야 했기 때문에 다시 돌아가서 고칠 필요가 없었습니다. 화질만 보여드리는 것에만 신경쓰고 이미 포스팅을 했기 때문에 강박장애가 조금 귀찮아도 다시 돌아가서 고치지는 않을 생각입니다.

다른 통계. 가격이 폭등하기 전에 4090(24GB VRAM)과 64GB 시스템 RAM(1년 전에 구입)을 갖게 된 것은 정말 행운입니다. 768 x 1088 비디오 20초(481 프레임 - 24fps)는 내가 설정한 Loras에 따라 6~10분, 오일러를 사용하면 25단계가 소요됩니다. 귀하의 마일리지는 다양합니다.

***게시물 업데이트: 저는 매우 간단한 프롬프트를 사용하고 있습니다. 내 목표는 즉각적인 준수 여부를 테스트하는 것이 아니라 품질과 립싱크를 엉망으로 만드는 것이었습니다. 여기에 표현이나 눈맞춤에 대해 가끔 1~2개의 단어로 변경하는 당황스러울 정도로 짧은 프롬프트가 있습니다. 이것은 거의 모든 노래 비디오를 구동합니다.

**"여성이 노래하는 영상입니다. 그녀는 섬세하고 유려한 동작과 행복한 표정으로 노래합니다. 그녀는 감동과 열정으로 노래합니다. 정적 카메라."**

미쳤지?

모델 및 Lora 목록

*체크포인트**

- [ltx-2-19b-dev-fp8.safetensors]

https://huggingface.co/Lightricks/LTX-2/resolve/main/ltx-2-19b-dev-fp8.safetensors

**text_encoders - 양자화된 Gemma

- [gemma_3_12B_it_fp8_e4m3fn.safetensors]

[https://huggingface.co/GitMylo/LTX-2-comfy_gemma_fp8_e4m3fn/resolve/main/gemma_3_12B_it_fp8_e4m3fn.safetensors?download=true] (https://huggingface.co/GitMylo/LTX-2-comfy_gemma_fp8_e4m3fn/resolve/main/gemma_3_12B_it_fp8_e4m3fn.safetensors?download=true)

**로라스**

- [LTX-2-19b-LoRA-카메라-제어-정적]

[https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static/resolve/main/ltx-2-19b-lora-camera-control-static.safetensors?download=true] (https://huggingface.co/Lightricks/LTX-2-19b-LoRA-Camera-Control-Static/resolve/main/ltx-2-19b-lora-camera-control-static.safetensors?download=true)