지난 주 이미지 및 비디오 생성
저는 매주 멀티모달 AI 정보를 선별하고 있습니다. 지난주의 오픈소스 확산 하이라이트는 다음과 같습니다.
**FLUX.2 [klein] - 고속 소비자 세대**
* 소비자 GPU(13GB VRAM)에서 실행되며 1초 이내에 고품질 이미지를 생성합니다.
* 하나의 모델에서 텍스트-이미지 변환, 편집 및 다중 참조 생성을 처리합니다.
* 블로그 | 데모 | 모델
https://i.redd.it/m1d93nmczeeg1.gif
**Real-Qwen-Image-V2 - 최고 사실주의 모델**
* 사실적인 결과를 위해 미세 조정된 Qwen-Image 모델이 구축되었습니다.
* 사실적인 이미지 합성을 위해 커뮤니티에 최적화되었습니다.
* 모델
**ComfyUI 전처리기 - 단순화된 작업 흐름**
* 전처리기를 위한 새로운 단순화된 워크플로 템플릿.
* 간소화된 전처리를 위한 공식 ComfyUI 팀 릴리스입니다.
* 공지
https://reddit.com/link/1qhoilx/video/z3vmbgp5zeeg1/player
**Wan 2.2 Animate를 사용한 수술용 마스킹**
* Wan 2.2 Animate를 사용한 수술용 마스킹을 위한 커뮤니티 워크플로입니다.
* 마스킹 기술을 통한 정밀한 애니메이션 제어.
* 게시물
https://reddit.com/link/1qhoilx/video/9brwdk74zeeg1/player
**FASHN 인간 파서 - 패션 세분화**
* 패션 이미지에서 인간을 분석하기 위해 미세 조정된 SegFormer.
* 패션 중심의 워크플로우 및 마스킹에 유용합니다.
* 껴안는 얼굴
# 입상:
**포켓 TTS - 개방형 텍스트 음성 변환**
* 가볍고 CPU 친화적인 개방형 텍스트 음성 변환 애플리케이션입니다.
* 독점 서비스가 없는 로컬 음성 합성.
* 허깅페이스 | 데모 | GitHub 리포지토리 | 허깅페이스 모델카드 | 논문 | 문서
더 많은 데모, 논문, 리소스를 보려면 전체 요약을 확인하세요.