광고 영역 320x100
Stable Diffusion

지난 주 이미지 및 비디오 생성

익명유저8959·1개월 전·조회 454
이미지

저는 매주 멀티모달 AI 정보를 선별하고 있습니다. 지난주의 오픈소스 확산 하이라이트는 다음과 같습니다.


**FLUX.2 [klein] - 고속 소비자 세대**

* 소비자 GPU(13GB VRAM)에서 실행되며 1초 이내에 고품질 이미지를 생성합니다.
* 하나의 모델에서 텍스트-이미지 변환, 편집 및 다중 참조 생성을 처리합니다.
* 블로그 | 데모 | 모델

https://i.redd.it/m1d93nmczeeg1.gif

**Real-Qwen-Image-V2 - 최고 사실주의 모델**

* 사실적인 결과를 위해 미세 조정된 Qwen-Image 모델이 구축되었습니다.
* 사실적인 이미지 합성을 위해 커뮤니티에 최적화되었습니다.
* 모델

https://preview.redd.it/l72z9ie2zeeg1.png?width=1456&format=png&auto=webp&s=de781e966d8dc34836b9a56ac003038c6c366092

**ComfyUI 전처리기 - 단순화된 작업 흐름**

* 전처리기를 위한 새로운 단순화된 워크플로 템플릿.
* 간소화된 전처리를 위한 공식 ComfyUI 팀 릴리스입니다.
* 공지

https://reddit.com/link/1qhoilx/video/z3vmbgp5zeeg1/player

**Wan 2.2 Animate를 사용한 수술용 마스킹**

* Wan 2.2 Animate를 사용한 수술용 마스킹을 위한 커뮤니티 워크플로입니다.
* 마스킹 기술을 통한 정밀한 애니메이션 제어.
* 게시물

https://reddit.com/link/1qhoilx/video/9brwdk74zeeg1/player

**FASHN 인간 파서 - 패션 세분화**

* 패션 이미지에서 인간을 분석하기 위해 미세 조정된 SegFormer.
* 패션 중심의 워크플로우 및 마스킹에 유용합니다.
* 껴안는 얼굴

https://preview.redd.it/g0szqf3azeeg1.png?width=1456&format=png&auto=webp&s=1d4067258fdda56324e74993cff6f6e693a2c015

# 입상:

**포켓 TTS - 개방형 텍스트 음성 변환**

* 가볍고 CPU 친화적인 개방형 텍스트 음성 변환 애플리케이션입니다.
* 독점 서비스가 없는 로컬 음성 합성.
* 허깅페이스 | 데모 | GitHub 리포지토리 | 허깅페이스 모델카드 | 논문 | 문서

더 많은 데모, 논문, 리소스를 보려면 전체 요약을 확인하세요.


광고 영역 320x100
0댓글
광고 영역 320x100