Stable Diffusion

LTX-2에서 적절한 일본어를 생성하는 방법

익명연구자5848·1개월 전·조회 444

그래서 며칠 전 여기에 게시된 최근 애니메이션 클립이 시각적으로 많은 찬사를 받은 후, 일본어 오디오가 실제로 대부분 횡설수설하지만 훈련받지 않은 사람의 귀에는 일본어처럼 들릴 만큼 좋다는 것을 알았습니다. 제 모든 사용 사례가 일본 관련 콘텐츠에 집중되어 있었고 다른 사람들처럼 클립을 즐기고 싶었지만 정말 망쳤습니다.

어쨌든 LTX-2가 실제 일본어 오디오를 생성할 수 있는지 알고 싶어서 몇 가지 실험을 해봤습니다.

TL;DR - LTX-2의 일본어 지원은 상당히 취약하지만, 일본어를 능숙하게 구사하고 인내심이 많은 경우에만 실제 일본어 오디오를 생성할 수 있습니다. 일본어 능력이 없으면 죄송하지만 잘못된 내용이므로 알 수 없으며 ChatGPT 또는 기타 AI 도구는 무엇이 잘못되었는지 또는 해결 방법을 식별하는 데 도움을 줄 수 없습니다. LTX 개발자가 이 피드백을 활용하여 개선하는 데 도움이 되기를 바랍니다.

**이 동영상은 어떻게 제작했으며 무엇을 배웠나요?**

실제 스크립트는 다음과 같습니다.

에?何?

彼女してんのと、あたしのとを **LTX-2** До生成してんの？

めちゃkimoいん다けど!

뭐야 、何が **16GB** だよ?

いつ、ちゃんとした **그라보** sura買えねえ!

やだ。絶対無理。

캐릭터가 갸루이기 때문에 말투도 "계집애" 같은 느낌이에요.

어쨌든, 하드웨어와 작업 흐름 측면에서 저는 64GB 시스템 RAM이 포함된 5060Ti 16GB VRAM을 실행하고 있으며 Linux를 사용하고 있습니다. 저는 LTX-2의 Q6 GGUF 퀀트를 사용하고 다음 워크플로를 사용했습니다: https://civitai.com/models/2304098?modelVersionId=2593987 - 구체적으로 위 비디오는 481 프레임에 대한 I2V 워크플로를 사용하여 생성되었습니다. 640x640 해상도. 입력 이미지는 ai-toolkit을 사용하여 만든 맞춤형 흑개루(黒ギarr) LoRa를 사용하여 Z 이미지 터보를 통해 생성되었습니다. 그 LoRa는 출판되지 않았지만, 품질을 개선할 수 있다면 어느 시점에 출판할 수도 있을 것입니다.

**K, 프롬프트는 어떻습니까?** 음... 여기서부터가 흥미로워집니다.

**시도 1: 전체 한자(대실패)**

처음에 위에 표시된 것처럼 전체 한자로 스크립트를 입력하려고 시도했을 때 정말 개똥 같은 결과가 나왔습니다. 그것은 일본어처럼 들리지만 실제로는 그렇지 않은 것과 같은 종류의 왜곡된 횡설수설이었습니다. 그래서 나는 즉시 그 전략을 포기하고 다음으로 전체 스크립트를 히라가나 + 가타카나로 입력하려고 했습니다. 왜냐하면 한자와는 달리 완벽하게 음성학적이어서 운이 더 좋을 것이라고 생각했기 때문입니다.

**시도 2: 가나만 사용(실패)**

Kana를 사용하면 훨씬 더 나은 결과를 얻을 수 있었지만 여전히 문제가 있었습니다. 나는 특정 문구가 매번 일관되게 틀리거나 때로는 맞지만 대부분의 경우 틀렸다는 것을 알았습니다. 제가 수행한 일부 테스트에서 주목할만한 예는 は가 일본어 문법의 주제 표시이고 해당 문맥에서 나타날 때 "wa"로 발음되지만 다른 곳에서는 "ha"로 발음되기 때문에 早KU(はやKU / hayaku)라는 단어를 "hayaku" 대신 "wayaku"로 항상 렌더링한다는 것입니다. 그래서 저는 이 전략을 포기하고 다음에는 전체 로마자를 시도해 보았습니다.

**시도 3: 로마자만 사용(실패)**

이 시점에서 나는 전체 스크립트를 로마자로 렌더링하는 Romaji로 시도해 보기로 했다고 생각했습니다. 이는 가나 전용 전략과 거의 동일한 결과를 가져왔습니다. 즉, 일부 문구에서는 괜찮은 경우도 있었고, 지속적으로 틀린 경우도 있었고, 다시 굴릴 때 올바른 것과 틀린 경우를 번갈아 가며 하는 경우도 있었습니다.

**시도 4: 하이브리드 가나 + 로마자(최대 200번 다시 굴림 후 성공)**

마지막으로... 효과가 있었던 전략은 로마자 + 가나 혼합으로 스크립트를 렌더링하는 프롬프트를 반복하는 데 많은 시간을 소비하고 가나에 온갖 이상한 작업을 수행하여 완전히 부자연스러워 보이는 방식으로 쪼개는 것이었습니다. 하지만 그 결과 더 많은 시간이 더 정확한 결과를 얻었습니다. 기본적으로 로마자에서 항상 잘못 렌더링되는 내용은 대신 가나로 작성하고 그 반대의 경우도 마찬가지입니다. 그런 다음 경계선에 있는 항목에 대해 동일한 작업을 수행하고 단어나 구문이 항상 올바르게 출력되는 조합을 찾으면 그대로 유지합니다. 그럼에도 불구하고... 립싱크가 약간 어긋나고 일본어가 약간 어긋나는 사이에 사용 가능한 클립의 수율은 5% 정도였습니다. 그런 다음 200개 정도의 클립을 생성했고 Cherry는 최고의 10개를 골라 내가 게시한 클립을 결정했습니다. 게시물에 자막을 추가하고 자막 도구를 통해 추가된 워터마크를 제거했습니다.

**마지막 프롬프트:**

금발 머리, 파란 눈의 일본 소녀가 카메라를 바라보며 "네? NANI?"라고 말합니다. 충격받은 표정으로. 그런 다음 그녀는 잠시 멈추고 호기심 많은 어조로 "kanojo dekinai kara あたしのとを ELL TI Ecksw ツー de せいせいしてんの?"라고 묻습니다. 그녀는 잠시 멈추고 역겨운 말투와 표정으로 "metcha kimoi んだけど"라고 말합니다. 그녀는 좀 더 멈춘 다음 실망한 표정으로 조용히 "te yuu ka saaa! nani ga juu roku giga da yo"라고 부드러운 목소리로 말합니다. 그러자 그녀는 화가 나서 "koitsu chanto Shita gurabo sura kaenee!!!"라고 외칩니다. 그녀는 진정하고 나서 조용한 목소리로 고개를 저으며 "やだ. Zettai muri."라고 속삭인다. 그녀의 입술과 입이 말하는 내용에 맞춰 움직이고 그녀의 눈은 생동감 넘치는 방식으로 이리저리 움직입니다. 그녀의 감정 상태는 당황하고, 혼란스럽고, 혐오감을 느낍니다.

**친애하는 LTX 개발자 여러분:**

LTX-2는 놀라운 모델입니다. 일본어는 세계의 주요 언어이고 일본은 많은 미디어를 생산하는 문화 강국이기 때문에 향후 버전에서 일본어 지원이 수정되었으면 좋겠습니다. 나는 훈련 세트가 일본어에 대해 약하거나 불균형하다고 생각하며 언어의 어려움으로 인해 올바른 결과를 얻으려면 훨씬 더 많은 관심과 주의가 필요합니다. 특히, 한자가 히라가나에 비해 너무 나쁘다는 사실은 중국어와 혼동되고 있다는 생각을 갖게 하고, 그래서 오디오가 그렇게 나쁜 것입니다. Kana는 완전히 음성학적이며 훨씬 단순하므로 기본적으로 더 잘 작동하는 것이 합리적입니다. 이를 개선할 수 있는 가장 빠르고 더러운 해킹은 훈련 데이터에 있는 일본어 오디오 + 일본어 텍스트 쌍을 가져와 ChatGPT API를 사용하여 대신 가나로 문장을 출력하고 전체 한자 텍스트에 대한 훈련 외에도 이에 대해 훈련하는 것입니다. 내 경험에 따르면 ChatGPT API는 이 작업에 대해 거의 완벽한 결과를 제공합니다. 비록 가끔 오류가 발생하는 것을 보았지만 비율이 낮고 심지어 현재 결과보다 훨씬 더 바람직할 것입니다.