LocalLLaMA

[출시] Subquadratic Attention을 사용한 실험 모델: 100 tok/s @ 1M context, 76 tok/s @ 10M context (30B 모델, 단일 GPU)

익명개발자1247·1개월 전·조회 559

안녕하세요 여러분,

지난 주에 나는 새로운 하위 이차 주의 메커니즘에 대한 예비 결과를 공유했습니다. (https://www.reddit.com/r/LocalLLaMA/comments/1qol3s5/preliminary_new_subquadratic_attention_20k_toks). 전체 릴리스에 대한 후속 조치: 이제 모델 + 추론 코드를 사용할 수 있습니다.

**TL;DR**: O(L\^2) 대신 O(L\^(3/2)) 스케일링을 달성하는 30B 모델. 극단적인 컨텍스트 길이에서도 실용성을 유지하는 디코드 속도로 단일 GPU에서 1M~10M 컨텍스트를 지원합니다. OpenAI 호환 서버 및 CLI와 함께 제공되어 시험해 볼 수 있습니다.

- 🤗 **모델**: https://huggingface.co/concavity-ai/superlinear-exp-v0.1

- 💻 **코드**: https://github.com/concavity-ai/superlinear (`pip install superlinear`)

- 📄 **논문**: https://arxiv.org/abs/2601.18401

**주요 아이디어**

어텐션은 다음 토큰 예측을 위한 관련 정보를 찾기 위한 검색 알고리즘으로 생각할 수 있습니다. Standard attention은 기본적으로 O(L) 무차별 대입 검색입니다. 우리는 학습된 라우팅을 사용하여 O(L\^0.5) 점프 검색을 수행하고 있습니다. O(L\^0.5) 후보 범위의 점수를 매기고 상위 k를 선택한 다음 선택한 범위 내에서 토큰 수준 주의를 수행합니다.

이는 **임의의 컨텍스트 액세스**를 유지하면서 **O(L\^(3/2))개의 총 복잡성**을 제공합니다. 고정된 슬라이딩 창과 달리 콘텐츠 종속 라우팅을 통해 모든 토큰을 선택할 수 있습니다. 컨텍스트 길이가 10배가 되면 검색 예산은 ~3.2배만 늘어납니다. 이차 스케일링은 긴 맥락에서 정말 중요합니다.

**성능(단일 B200 GPU)**

| 컨텍스트 길이 | 미리 채우기(톡/초) | 디코드(톡/초) | 메모리 |
|---|----|---|---------|
| 100만 토큰 | ~20,202 | ~109 | 66GB |
| 1000만 토큰 | ~5,576 | ~76 | ~120GB |

요점: 1M → 10M 컨텍스트(10배 증가)는 디코드 속도를 ~30%까지만 떨어뜨리며 집중적인 주의로 인해 10배 느려지는 것은 아닙니다.

**이것이 중요한 이유**

빠른 긴 컨텍스트 추론이 있으면 사용 패턴이 변경됩니다. 핵심은 모든 것을 다시 처리하는 대신 **캐시를 유지**하는 것입니다.

- ***거의 무한한 채팅***: 즉각적인 응답을 위해 메모리에 KV 캐시, 지속성을 위해 세션을 디스크에 저장/복원

- ***문서 Q&A***: 문서를 한 번 로드하면 재처리 없이 문서 간 질문을 할 수 있습니다(GitHub 예: 문서 간 추론이 포함된 Wikipedia 기사 8개).

- ***긴 형식 생성***: 어려운 수학 문제에 대한 20,000개 이상의 토큰 추론 및 일관성 있는 긴 기사 작성, 모두 유지된 맥락에서

초기 결과: 512K 컨텍스트에서 완벽한 NIAH(지난주의 256K에서 증가), 문서 간 추론 작업, 하위 2차 스케일링 실제로 작동.

기존 추론 엔진은 사용자 지정 커널을 지원하지 않으므로 Triton 커널, OpenAI 호환 서버, 세션 스냅샷, 청크 사전 채우기, BM25 RAG가 포함된 CLI 등 전체 스택을 직접 구축했습니다.

**제한사항 및 다음 단계**

***현재 제한사항:***

- 이것은 프로덕션 품질이 아닌 **아키텍처 + 시스템 타당성 릴리스**입니다.

- 제한된 훈련 데이터(초기 SFT에만 해당)

- NIAH 이상의 포괄적인 평가가 여전히 필요함

- FP16 전용(1M 컨텍스트의 경우 66GB) - 양자화 곧 제공될 예정

***양자화*** **(곧 제공 예정):**

- 24GB 소비자 GPU에서 1M 컨텍스트를 실행하는 4비트/8비트 양자화

- 대상: 전체 1M 컨텍스트를 갖춘 RTX 4090 / RTX 5090

- 48GB 카드의 2M 컨텍스트(예: RTX 6000 Ada)

***하드웨어 지원:***

- 현재 CUDA만 해당(B200, RTX 6000 Blackwell 테스트 완료)

- AMD ROCm 포트 출시 예정(Triton 커널은 이를 간단하게 만들어야 함)

- 결국 Apple Silicon(더 어렵지만 불가능하지는 않음)

***교육 및 품질 개선:***

- 더 긴 컨텍스트 예제를 사용하여 SFT 데이터 확장

- 긴 문서에 대해 지속적인 사전 학습을 수행할 가능성이 있음

- 완벽한 NIAH 범위를 512K 이상으로 확장

- 실제 장기 컨텍스트 벤치마크(도서 QA, 코드베이스 분석, 다중 문서 추론)

***새로운 최종 사용자 애플리케이션***: 이를 기반으로 로컬 우선 최종 사용자 애플리케이션을 개발할 계획입니다. 실제로 긴 컨텍스트를 무엇에 사용하시겠습니까? 우선순위를 정하는 데 도움이 되는 구체적인 사용 사례를 듣고 싶습니다.

---

새로운 것을 시도하는 것은 매우 어렵습니다. 누구나 기존 변환기 아키텍처, 즉 모든 수준의 최적화, 예측 가능한 확장 법칙을 좋아합니다. 하지만 로컬 하드웨어에서 실제로 긴 컨텍스트 모델을 실용적으로 만들려면 새로운 아이디어가 필요하다고 생각합니다. 시도해 보는 것도 나쁘지 않죠?

나는 이 하위 항목을 스팸으로 보내지 않으려고 노력하고 있으므로 GitHub 저장소가 진행 상황을 확인하는 가장 좋은 장소입니다. 그래도 여기서 질문에 답변해 드리게 되어 기쁩니다! 시도해 보고 문제가 발생하면 GitHub 문제를 엽니다. 그리고 장기 컨텍스트 사용 사례에 대한 생각이 있다면 듣고 싶습니다.

지난 포스팅에 많은 격려를 보내주셔서 감사드립니다!

**링크**:

- 🤗 **모델**: https://huggingface.co/concavity-ai/superlinear-exp-v0.1

- 💻 **코드**: https://github.com/concavity-ai/superlinear

- 📄 **논문**: https://arxiv.org/abs/2601.18401