LocalLLaMA

Qwen3 Coder Next는 나에게 60GB 미만인 최초의 "사용 가능한" 코딩 모델입니다.

익명창작자7879·1개월 전·조회 409

나는 과거에 60GB 미만의 "소형" 모델을 많이 사용해 보았습니다. GLM 4.5 Air, GLM 4.7 Flash, GPT OSS 20B 및 120B, Magistral, Devstral, Apriel Thinker, 이전 Qwen 코더, Seed OSS, QwQ, DeepCoder, DeepSeekCoder 등. 그렇다면 OpenCode의 Qwen3 Coder Next 또는 VSCodium이 포함된 Roo Code의 차이점은 무엇입니까?

* **속도**: 추론 모델이 항상 좋은 결과를 생성하지는 않는 경우가 많습니다. 그러나 때로는 올바른 샘플링 설정에도 불구하고 추론 루프에 들어가 대규모 밤새 실행에서 전혀 결과가 나오지 않았습니다. 그 외에도 OpenCode 또는 Roo가 유도하는 여러 단계에 대해 때로는 광범위한 추론에 상당한 시간이 걸리므로 대화형 작업 속도가 *많이* 느려집니다. 반면에 Q3CN은 MoE 교육 모델이며 내부 사고 루프가 없으며 비교적 빠르게 토큰을 생성합니다.
* **품질**: 다른 모델은 때때로 하네스의 도구 호출을 망쳤습니다. 이것은 안정적으로 작동하는 것 같습니다. 또한 마침내 이것이 사용자 정의 클라이언트 및 서버, 다양한 프로그래밍 언어, protobuf 및 몇 가지 특이한 점을 사용하여 적당히 복잡한 코드베이스를 처리할 수 있다는 인상을 받았습니다. 극단적인 멀티홉 질문에 대한 좋은 답변을 제공하고 안정적인 전체 스택 변경을 수행했습니다. 글쎄, 거의. Roo Code에서는 때때로 약간 게으르기도 했고 올바른 결과를 얻기 위해 실제로 깊이 들어가야 한다는 알림이 필요했습니다. 다른 모델은 종종 분실되었습니다.
* **컨텍스트 크기**: 대규모 프로젝트의 코딩에는 컨텍스트가 필요합니다. 표준 주의를 기울이는 대부분의 모델은 아침 식사로 모든 VRAM을 먹습니다. Q3CN을 사용하면 100k+ 컨텍스트를 갖는 것이 쉽습니다. 몇몇 다른 모델도 이미 이를 지원했지만 언급된 처음 두 가지 사항에는 단점이 있었습니다.

나는 이런 식으로 모델을 실행합니다.
`GGML_CUDA_GRAPH_OPT=1로 설정`

`llama-server -m Qwen3-Coder-Next-UD-Q4_K_XL.gguf -ngl 99 -fa on -c 120000 --n-cpu-moe 29 --temp 0 --cache-ram 0`

이는 GPU에 (거의) 아무것도 없을 때 24GB VRAM 및 64GB 시스템 RAM에서 잘 작동합니다. 나에게 약 180TPS의 신속한 처리와 30TPS의 생성 속도를 제공합니다.

* `온도 0`? 예, 교육에 적합하며 더 높은 온도의 "창의성"이 필요하지 않습니다. 코딩 시 발생 가능성이 낮고 잘못된 토큰을 출력하는 *매우 가끔 발생하는* 문제를 방지합니다.
* `캐시램 0`? 캐시는 빠른 속도(30ms)로 예상되었지만 각 요청 후 쿼리/업데이트 시간이 3초로 나타났습니다. 그래서 더 이상 조사하지 않고 비활성화했습니다. 어쨌든 단일 슬롯에 하나의 긴 대화 기록이 있기 때문입니다.
* `GGML_CUDA_GRAPH_OPT`? 더 많은 TPS를 얻기 위한 실험적 옵션입니다. 일반적으로 작동하지만 일부 모델에서는 처리가 중단됩니다.

**OpenCode 대 Roo 코드**:

둘 다 모델을 사용하여 문제를 해결했지만 OpenCode를 사용하면 약간 더 정확한 답변과 솔루션을 볼 수 있습니다. 그러나 Roo는 *기본적으로* 모든 것, 심지어 명령줄을 통한 구문 검사 실행과 같은 무해한 것까지 묻습니다. 자동화된 흐름을 자주 중단하지 않도록 쉬운 권한 목록으로 구성할 수 있습니다. 반면에 OpenCode는 기본적으로 코드 모드에서 모든 것을 허용합니다. 일단 문제가 발생하면 문제를 해결하기 위해 패키지를 제거했다가 다시 설치하고, 파일을 제거하고 개발 환경을 깨뜨려 궁지에 몰렸습니다. "일을 완수"하려는 시도에 너무 자율적이어서 훈련 세트에 없는 최신 기술에서는 제대로 작동하지 않습니다. 물론 권한도 구성할 수 있지만 기본값은 "YOLO"입니다.

그 외에도: 로컬 호스팅 모델로만 실행하고 업데이트 확인 및 뉴스 다운로드를 비활성화했음에도 불구하고 OpenCode(데스크톱 버전)는 시작 시 수많은 IP에 연결을 시도합니다.