LocalLLaMA

128GB VRAM 쿼드 R9700 서버

익명연구자8473·1개월 전·조회 465

이 글은 2024년에 올린 이전 글의 속편입니다.

저는 원래 MI100 한 쌍과 인피니티 패브릭 브리지를 추가로 구매할 계획이었고, 이를 준비하기 위해 2025년 동안 하드웨어 업그레이드를 많이 했습니다. 특히 더 빠른 두 배 용량의 메모리(현재 가격이 급등하기 훨씬 전인 지난 2월), 다른 마더보드, 더 높은 용량의 PSU 등을 구입했습니다. 하지만 llama.cpp ROCm 스레드에서 R9700의 벤치마크를 살펴본 결과, 토큰 생성 손실이 적은 대신 훨씬 더 빠른 처리 성능을 보였습니다. MI100의 가격도 약 1000달러로 올랐기 때문에 브리지 비용을 고려하면 거의 같은 가격이 되었습니다. 그래서 저는 MI100을 팔고 R9700 4대를 구입한 후 하루를 마무리했습니다.

사양과 BOM은 다음과 같습니다. CPU와 SSD는 이전 빌드에서 가져온 것이고, 내부 팬은 거래의 일부로 PSU와 함께 번들로 제공되었습니다:

|구성 요소|설명|번호|단위 가격|
|:-|:-|:-|:-|
|CPU|AMD Ryzen 7 5700X|1|$160.00|
|RAM|Corsair Vengance LPX 64GB (2 x 32GB) DDR4 3600MHz C18|2|$105.00|
|GPU|PowerColor AMD Radeon AI PRO R9700 32GB|4|$1,300.00|
|마더보드|MSI MEG X570 GODLIKE 마더보드|1|$490.00|
|스토리지|내륙 성능 1TB NVMe SSD|1|$100.00|
|파워서플라이|슈퍼플라워 리덱스 티타늄 1600W 80+ 티타늄|1|$440.00|
|내부 팬|슈퍼플라워 MEGACOOL 120mm 팬, 트리플팩|1|$0.00|
|케이스 팬|Noctua NF-A14 iPPC-3000 PWM|6|$30.00|
|CPU 히트싱크|AMD 레이스 프리즘 aRGB CPU 쿨러|1|$20.00|
|팬 허브|Noctua NA-FH1|1|$45.00|
|케이스|Phanteks Enthoo Pro 2 서버 에디션|1|$190.00|
|총액|||$7,035.00|

128GB VRAM, 오프로딩용 128GB RAM, 모두 RTX 6000 블랙웰 가격보다 저렴합니다.

몇 가지 벤치마크:

|모델|크기|파라미터|백엔드|영문|n_배치|n_유배치|fa|테스트|t/s|
|:-|:-|:-|:-|:-|:-|:-|:-|:-|:-|
|llama 7B Q4_0|3.56 GiB|6.74 B|ROCm|99|1024|1024|1|pp8192|6524.91 ± 11.30|
|llama 7B Q4_0|3.56 GiB|6.74 B|ROCm|99|1024|1024|1|tg128|90.89 ± 0.41|
|qwen3moe 30B.A3B Q8_0|33.51 GiB|30.53 B|ROCm|99|1024|1024|1|pp8192|2113.82 ± 2.88|
|qwen3moe 30B.A3B Q8_0|33.51 GiB|30.53 B|ROCm|99|1024|1024|1|tg128|72.51 ± 0.27|
|qwen3vl 32B Q8_0|36.76 GiB|32.76 B|ROCm|99|1024|1024|1|pp8192|1725.46 ± 5.93|
|qwen3vl 32B Q8_0|36.76 GiB|32.76 B|ROCm|99|1024|1024|1|tg128|14.75 ± 0.01|
|llama 70B IQ4_XS - 4.25 bpw|35.29 GiB|70.55 B|ROCm|99|1024|1024|1|pp8192|1110.02 ± 3.49|
|llama 70B IQ4_XS - 4.25 bpw|35.29 GiB|70.55 B|ROCm|99|1024|1024|1|tg128|14.53 ± 0.03|
|qwen3next 80B.A3B IQ4_XS - 4.25 bpw|39.71 GiB|79.67 B|ROCm|99|1024|1024|1|pp8192|821.10 ± 0.27|
|qwen3next 80B.A3B IQ4_XS - 4.25 bpw|39.71 GiB|79.67 B|ROCm|99|1024|1024|1|tg128|38.88 ± 0.02|
|glm4moe ?B IQ4_XS - 4.25 bpw|54.33 GiB|106.85 B|ROCm|99|1024|1024|1|pp8192|1928.45 ± 3.74|
|glm4moe ?B IQ4_XS - 4.25 bpw|54.33 GiB|106.85 B|ROCm|99|1024|1024|1|tg128|48.09 ± 0.16|
|minimax-m2 230B.A10B IQ4_XS - 4.25 bpw|113.52 GiB|228.69 B|ROCm|99|1024|1024|1|pp8192|2082.04 ± 4.49|
|minimax-m2 230B.A10B IQ4_XS - 4.25 bpw|113.52 GiB|228.69 B|ROCm|99|1024|1024|1|tg128|48.78 ± 0.06|
|minimax-m2 230B.A10B Q8_0|226.43 GiB|228.69 B|ROCm|30|1024|1024|1|pp8192|42.62 ± 7.96|
|minimax-m2 230B.A10B Q8_0|226.43 GiB|228.69 B|ROCm|30|1024|1024|1|tg128|6.58 ± 0.01|

몇 가지 최종 관찰 결과입니다:

* GLM4 모에와 미니맥스-M2는 실제로는 각각 GLM-4.6V와 미니맥스-M2.1입니다.
* 현재 Qwen3-Next에 대한 미해결 문제가 있으며, 최근 최적화로 인해 상당히 큰 폭의 프롬프트 처리 퇴행이 발생했습니다. 여기 숫자는 정확한 문제가 해결될 경우를 대비해 18683 이전 버전입니다.
* MiniMax-M2.1의 Q8 수량에 대해 한 마디; `--fit on`은 라마 벤치에서 지원되지 않으므로 단순히 GPU 레이어 수를 줄이는 것과 사과 대 사과 비교를 할 수는 없지만, 라마 서버에서도 1세대에서 HIP 오류 906이 발생하여 매우 불안정합니다. 십여 번의 시도 중 한 번은 TG가 약 8.5 t/s로 작동하는 데 성공했지만 소금 한 알로 받아들이세요. 그렇지 않다면 하룻밤 사이에 품질이 향상될 만한 가치가 있을까요? 판단은 여러분이 하세요. 또한 로딩하는 데 2시간이 걸리는데, 이는 외장 스토리지에서 로딩하기 때문일 수 있습니다.
* 케이스의 내부 팬 마운트에는 한쪽에만 나사가 있고, 의도된 구성에서는 전원 케이블 구멍이 GPU 전원 소켓이 있는 반대편에 있어 전원 케이블이 팬의 공기 흐름을 차단합니다. 어떻게 이런 사실을 몰랐는지 모르겠습니다. 다행히도 저처럼 180도 뒤집으면 마찰에 의해 제자리에 고정됩니다. 사실 팬 없이도 갈 수 있었을 텐데, 대부분 MI100을 사용할 때를 고려한 것이었지만 어쨌든 팬은 공짜였어요.
* AM5를 사용하고 싶었지만 2개의 슬롯 GPU를 위한 4개의 풀 사이즈 PCIe 슬롯이 있는 보드는 아직 없습니다. 기껏해야 3개만 장착한 다음 그 중 하나를 덮을 수 있습니다. 하지만 수많은 M.2 슬롯이 필요하다면 금상첨화입니다. 그렇다면 왜 스레드리퍼/에픽을 선택하지 않았는지 물어보실 수도 있는데, 전력 소비와 발열이 걱정되었기 때문입니다. 라이저와 오픈 리그를 망치고 싶지 않았기 때문에 RAM 속도/채널과 PCIe 속도가 느려지더라도 이 작업을 수행할 수 있는 AM4 보드를 찾았습니다.
* MI100과 R9700은 두 개를 모두 사용했던 짧은 기간 동안 제대로 작동하지 않았습니다. 문제 해결에 신경 쓰지 않고 그냥 어깨를 으쓱하며 팔아버렸기 때문에 간단한 문제일 수도 있지만, 참고로 말씀드리자면.
* 원래 빌드에서 1TB SSD를 사용한 것은 실수였고, 2개만 사용했어도 큰 차이를 만들 수 있었을 것입니다. LLM, 이미지 생성, TTS 등에서. 스토리지 제약으로 인해 퀀트가 적은 모델에서는 여분의 VRAM을 실제로 활용하는 데 어려움을 겪고 있기 때문에 벤치마크에서 8비트를 쉽게 수행할 수 있음에도 불구하고 여전히 4비트 퀀트가 많이 나옵니다.
* 보드의 작은 LCD 디스플레이를 어떻게 제어해야 할지 모르겠습니다. 리눅스에 방법이 있는지 모르겠습니다. 아쉽네요.