LocalLLaMA

광고 영역 320x100

광고 영역 970x90

번호

주제

제목

글쓴이

작성일

조회

[출시] Subquadratic Attention을 사용한 실험 모델: 100 tok/s @ 1M context, 76 tok/s @ 10M context (30B 모델, 단일 GPU)

109

LocalLLaMA

니모 30B는 미쳤어요. 하나의 3090에 100만개 이상의 토큰 CTX

니모 30B는 미쳤어요. 하나의 3090에 100만개 이상의 토큰 CTX

108

LocalLLaMA

CPU 전용, GPU 컴퓨터 없이 모든 종류의 AI 도구를 로컬에서 실행할 수 있음

CPU 전용, GPU 컴퓨터 없이 모든 종류의 AI 도구를 로컬에서 실행할 수 있음

107

LocalLLaMA

엔비디아는 없나요? 괜찮아요. 내 2018년 "Potato" 8세대 i3는 16B MoE에서 10TPS를 달성했습니다.

엔비디아는 없나요? 괜찮아요. 내 2018년 "Potato" 8세대 i3는 16B MoE에서 10TPS를 달성했습니다.

광고 영역 320x100

광고 영역 728x90

LocalLLaMA

케미는 참 똑똑해

GLM 5 출시

Qwen3 Coder Next는 나에게 60GB 미만인 최초의 "사용 가능한" 코딩 모델입니다.

30% 적은 메모리로 MoE 모델을 12배 더 빠르게 학습하세요! (<15GB VRAM)

Qwen-Image-2.0 출시 - 네이티브 2K 및 실제 텍스트 렌더링을 갖춘 7B 통합 생성+편집 모델

지역 형제들에게 나쁜 소식

Qwen3-Coder-Next의 "Coder"에 속지 마십시오! 동급 크기 중 가장 스마트하고 범용적인 모델입니다.

저는 총 ~4천만 개의 토큰에 대해 처음부터 180만 개의 매개변수 모델을 훈련했습니다.

Qwen3.5 홍보 오픈!!

대략적인 .gguf LLM 시각화 도구를 만들었습니다.

메카엡스타인-8000

얼굴을 껴안는 것은 인류와 관련된 뭔가를 놀리는 것입니다

나는 qwen3-235b를 정말 좋아합니다.

RTX 5070 Ti 및 RTX 5060 Ti 16GB는 더 이상 제조되지 않습니다.

신속한 주입으로 인해 자체 호스팅 LLM 배포가 종료됩니다.

GLM 5가 OpenRouter에서 테스트 중입니다.

[출시] Subquadratic Attention을 사용한 실험 모델: 100 tok/s @ 1M context, 76 tok/s @ 10M context (30B 모델, 단일 GPU)

니모 30B는 미쳤어요. 하나의 3090에 100만개 이상의 토큰 CTX

CPU 전용, GPU 컴퓨터 없이 모든 종류의 AI 도구를 로컬에서 실행할 수 있음

엔비디아는 없나요? 괜찮아요. 내 2018년 "Potato" 8세대 i3는 16B MoE에서 10TPS를 달성했습니다.