LocalLLaMA

768Gb 완전 밀폐형 10배 GPU 모바일 AI 빌드

익명빌더8386·1개월 전·조회 266

이런 형식의 시스템을 본 적은 없지만 결과가 너무 성공적이어서 공유하는 것이 좋겠다고 생각했습니다.

사양:
스레드리퍼 프로 3995WX, ASUS WS WRX80e-세이지 와이파이 ii 탑재

512Gb DDR4

256Gb GDDR6X/GDDR7(8x 3090 + 2x 5090)

EVGA 1600W + Asrock 1300W PSU's

케이스: 써멀테이크 코어 W200

OS: 우분투

예상 비용: ~$17,000

목표는 초대형 MoE 모델(특히 Deepseek 및 Kimi K2)을 실행하기 위한 시스템을 만드는 것이었으며, 긴 비디오 생성 및 빠른 고해상도 이미지 생성(그래픽 디자이너를 지원하는 시스템)도 가능해야 했습니다. 도전 과제/제약 조건: 시스템은 쉽게 이동할 수 있어야 하며, 밀폐형이어야 합니다. 결과는 기술적으로 요구 사항을 충족하지만 한 가지 사소한 주의 사항만 있습니다. 자본 비용도 암묵적인 제약 조건이었습니다. 우리는 성능/품질/창의성 잠재력에 대한 수익을 감소시키기 위해 불필요하게 수만 달러를 지출하는 길을 가지 않고 현재 사용 가능한 최고의 기술로 가능한 가장 강력한 시스템을 얻고 싶었습니다. 5090 또는 6000 PRO로 모두 교체하는 것은 예산상 불가능했고 결국 불필요한 선택이었으며, 6000 두 대만으로도 프로젝트에 소요된 전체 비용이 소모될 수 있었고 5090 두 대가 아니었다면 최종 비용은 약 1만 달러에 훨씬 가까웠을 것입니다(여전히 매우 우수한 시스템이었겠지만 이 그래픽 아티스트는 5090만이 제공하는 이미지/비디오 생성 시간 절감의 혜택을 누릴 수 있었을 것입니다).

가장 큰 장애물은 인클로저 문제였습니다. 이동성을 위한 솔루션으로 채굴 프레임을 바퀴 달린 랙에 지퍼로 묶는 것을 본 적이 있지만, 미관상 보기 좋지 않을 뿐 아니라 구조와 견고성에도 의문이 제기됩니다. 이 시스템은 여러 마리의 고양이와 함께 한 지붕 아래에서 생활해야 하기 때문에 인클로저가 있으면 좋겠지만, 비싼 부품과 호기심 많은 발 사이에 물리적 장벽이 필요했습니다. 마이닝 프레임은 실험 실패 이후 빠르게 배제되었습니다. 멀티 GPU 빌드 계획에 관한 포럼 토론에서 이전에 제안된 적이 없어서 솔직히 놀랐던 플랫폼인 W200이 이 포스팅의 주요 동기입니다. W200은 듀얼 시스템 인클로저로 설계되었지만, 메인보드를 보조 수납공간에 거꾸로 설치하면 "메인" 수납공간에 장착된 GPU에 라이저를 연결하기에 완벽한 방향이 됩니다. 모든 것을 배치하기 위해 밀집된 구획에서 작업하는 것이 괜찮다면(시스템의 전체적인 밀도가 높은 것이 유일한 단점 중 하나), 이 접근 방식은 마이닝 프레임 + 바퀴 달린 랙 솔루션에서 발생하는 흔들림을 크게 줄여줍니다. 여전히 특정 위치에 GPU를 고정하기 위해 몇 개의 지퍼 타이가 필요했지만, 다른 구성에서처럼 시스템을 다른 방으로 옮기거나 고양이가 제 작업을 검사하는 것에 대해 원격으로 불안감을 느끼지 않습니다.

이제 주의할 점이 있습니다. 특정 GPU를 선택했기 때문에(3090 중 3개가 AIO 하이브리드) 라디에이터를 장착하기 위해 W200의 팬 장착 레일 중 하나를 메인 컴파트먼트 쪽에 설치해야 했습니다(사진은 유리 패널이 열린 상태이지만 완전히 닫을 수 있음). 즉, 배기를 방해하지 않도록 이 패널이 약간이라도 열려 있지 않으면 시스템이 기술적으로 작동하지 않아야 하지만, AIO 3090이 송풍기/공냉식이라면 신선한 공기 흡입이 충분하다면 항상 완전히 닫힌 상태로 작동하지 못할 이유가 없다고 생각합니다.

마지막 케이스 사진은 5090 중 하나를 제거한 실제 마더보드가 설치된 공간(라이저와 커넥터가 매우 빽빽해서 아쉽게도 실제로는 아무것도 보이지 않습니다)을 보여줍니다. 전체적으로 공기 흐름이 매우 좋고(전체에 12개의 140mm 팬이 설치된 것 같습니다), GPU 온도는 부하 상태에서 양호한 작동 범위를 유지하며, 추론할 때 놀라울 정도로 조용합니다. 솔직히 이 제품에 얼마나 많은 팬과 고성능 GPU가 장착되어 있는지를 감안할 때 음향에 깊은 인상을 받았습니다. 사운드 미터가 없어서 db를 측정할 수는 없지만 제 게이밍 장비보다 훨씬 더 시끄럽지는 않은 것 같습니다.

저는 일반적으로 워크로드에 따라 3090은 200~250W, 5090은 500W로 전력을 제한합니다.

벤치마크

Deepseek V3.1 Terminus Q2XXS(100% GPU 오프로드)

생성된 토큰 - 2338 토큰

첫 토큰 생성 시간 - 1.38초

토큰 생성 속도 - 24.92tps

__________________________

GLM 4.6 Q4KXL(100% GPU 오프로드)

생성된 토큰 - 4096

첫 토큰 생성 시간 - 0.76초

토큰 생성 속도 - 26.61tps

__________________________

Kimi K2 TQ1 (87% GPU 오프로드)

생성된 토큰 - 1664

첫 토큰 생성 시간 - 2.59초

토큰 생성 속도 - 19.61tps

__________________________

Hermes 4 405b Q3KXL (100% GPU 오프로드)

토큰 생성 - 응답 품질에 압도당해 기록하는 것을 잊었습니다.

첫 토큰 생성 시간 - 1.13초

토큰 생성 속도 - 3.52tps

__________________________

Qwen 235b Q6KXL(100% GPU 오프로드)

생성된 토큰 - 3081

첫 토큰 생성 시간 - 0.42초

토큰 생성 속도 - 31.54tps

__________________________

여기서 비용 분석을 해볼까 생각했지만 가격 변동성과 제가 구입한 이후 많은 부품이 올랐기 때문에 큰 의미가 없을 것 같고 오해만 불러일으킬 수 있을 것 같습니다. 현재 RAM 가격만으로도 현재 동일한 빌드를 수행하는 데 드는 예상 비용이 수천 달러 정도 달라질 수 있습니다. 그래도 누군가에게 영감이나 흥미를 줄 수 있을 것 같아 제 접근 방식을 공유하기로 했습니다.