광고 영역 320x100
LocalLLaMA

니모 30B는 미쳤어요. 하나의 3090에 100만개 이상의 토큰 CTX

익명유저1973·1개월 전·조회 1,020

CPU 오프로딩을 사용하여 llama.cpp 및 일부 30-80B 매개변수 모델을 가지고 놀았습니다. 현재 3090과 32GB RAM이 하나씩 있습니다. 나는 Nemo 30B에 깊은 인상을 받았습니다. 1M 이상의 토큰 컨텍스트 캐시는 전문가를 위한 CPU 오프로드 3090에서 실행됩니다. 적어도 내가 읽을 수 있는 것보다 빠른 35t/s를 수행합니다. 보통 이렇게 큰 컨텍스트 창에서는 존나 느립니다. 책이나 연구 논문 전체를 입력하면 몇 분 안에 요약이 완료됩니다. 이는 실제로 로컬 하드웨어에서 긴 컨텍스트 창을 가능하게 합니다. 내가 시도한 유일한 다른 경쟁자는 Seed OSS 36b였으며 약 20 토큰만큼 훨씬 느렸습니다.


광고 영역 320x100
0댓글
광고 영역 320x100