LocalLLaMA

이 커뮤니티가 정말 좋아요

익명코더4822·1개월 전·조회 727

시간을 내어 설명하는 댓글이나 게시물을 작성하고, 사람들에게 작동 방식을 알려주신 모든 분들, llama.cpp와 vllm의 개발자, 그리고 오픈소스 커뮤니티를 번창하게 하는 모든 기여자 여러분께 감사드립니다.

저는 10년 전의 느린 PC에서 비교적 빠르게 거대한 모델을 실행할 수 있으며, 가장 빠른 모델은 65k 컨텍스트에서 @14-13.5 t/s로 실행되는 nemotron-3-nano-30B-a3b-iq4_nl입니다. 제 실제 GPU의 램 용량은 4GB에 불과하지만, 이 모델들을 실행할 수 있다는 사실에 매번 놀라움을 금치 못합니다.

저에게 중요한 것은 충분한 양의 시스템 메모리를 확보하는 것이었고, 모델이 MoE 아키텍처인 한 꽤 괜찮게 실행되었습니다.