[Hacker News 요약] 단일 GPU와 768GB 인텔 옵테인 DIMM으로 1조 파라미터 LLM을 로컬에서 구동 성공
7
설명
최근 한 레딧 사용자가 단종된 인텔 옵테인(Optane) 영구 메모리(Persistent Memory, PMem) DIMM 768GB를 활용하여 단일 GPU 시스템에서 1조 파라미터 규모의 대규모 언어 모델(LLM)을 로컬로 구동하는 데 성공했습니다. 이는 저렴한 중고 하드웨어로도 최첨단 LLM을 실행할 수 있음을 보여주며, 로컬 AI 추론의 새로운 가능성을 제시합니다. 초당 약 4토큰의 속도를 달성한 이 사례는 고비용의 최신 HBM 메모리 없이도 대용량 모델을 다룰 수 있는 창의적인 접근법으로 주목받고 있습니다.
### 배경 설명
대규모 언어 모델(LLM)은 방대한 파라미터 수로 인해 막대한 메모리 용량을 요구합니다. 특히 모델 추론(Inference) 시에는 전체 모델 가중치를 메모리에 로드해야 하므로, 고용량의 고속 메모리 확보가 핵심 과제입니다. 기존의 주류 메모리인 DRAM은 속도가 빠르지만 용량 대비 가격이 매우 비싸고, SSD는 저렴하지만 속도가 너무 느려 LLM 워크로드에 직접 사용하기 어렵습니다. 이러한 '메모리 계층 구조의 틈새'를 메우기 위해 인텔은 DRAM과 SSD 사이의 성능 및 비용 간극을 채우는 영구 메모리인 옵테인 PMem을 개발했습니다. 옵테인은 DRAM보다는 느리지만 SSD보다는 훨씬 빠른 속도를 제공하며, 전원이 꺼져도 데이터가 유지되는 특성을 가졌습니다. 그러나 시장의 복잡성과 높은 초기 비용, 그리고 인텔의 사업 전략 변화로 인해 2022년 단종되었습니다. 이번 사례는 단종된 옵테인 PMem이 LLM 추론이라는 새로운 맥락에서 예상치 못한 가치를 발휘할 수 있음을 보여주며, 고비용의 HBM(고대역폭 메모리)에 대한 의존도를 줄이면서도 대규모 모델을 효율적으로 운영하려는 시도에 중요한 시사점을 제공합니다.
### 획기적인 로컬 LLM 구동 성공
레딧 사용자 APFrisco는 중고 시장에서 저렴하게 구한 768GB(128GB 모듈 6개)의 인텔 옵테인 DCPMM(Data Center Persistent Memory Module)을 사용하여 1조 파라미터 규모의 Kimi K2.5 LLM을 로컬 워크스테이션에서 구동하는 데 성공했습니다. 이 시스템은 단일 엔비디아 지포스 RTX 3060 12GB GPU를 탑재했으며, 약 4토큰/초의 추론 속도를 달성했습니다. 이는 제한된 하드웨어 예산으로 '프론티어급' 모델을 실행했다는 점에서 큰 성과로 평가받고 있습니다.
### 인텔 옵테인 PMem의 재발견
단종된 옵테인 PMem은 DRAM보다 2~3배 느리지만, 최고 성능의 NVMe SSD보다는 훨씬 낮은 지연 시간을 제공합니다. 이러한 특성은 LLM 추론 프레임워크에 매우 적합하며, 특히 모델 가중치를 저장하는 데 필요한 대용량 메모리를 DRAM보다 훨씬 저렴한 비용으로 확보할 수 있게 합니다. APFrisco는 중고 옵테인 모듈을 동등한 용량의 DRAM보다 훨씬 저렴하게 구매했다고 밝혔습니다. 옵테인 PMem의 '메모리 모드'를 활용하여 DDR4 DRAM은 캐시로, 옵테인은 주 메모리 풀로 사용함으로써 대용량 모델 로딩 문제를 해결했습니다.
### 하드웨어 및 소프트웨어 구성
APFrisco의 워크스테이션은 인텔 제온 골드 6246 CPU, Tyan S5630GMRE-CGN 마더보드, Asus Dual GeForce RTX 3060 OC 12GB GPU, 6개의 32GB 삼성 DDR4 ECC DRAM, 그리고 핵심적으로 6개의 128GB 인텔 옵테인 DCPMM으로 구성되었습니다. 소프트웨어 측면에서는 Kimi K2.5의 Mixture-of-Experts(MoE) 아키텍처와 llama.cpp 라이브러리를 활용했습니다. 특히 llama.cpp의 'override-tensor' 플래그를 사용하여 모델의 라우팅 컴포넌트를 12GB GPU에 로드함으로써, GPU의 제한된 VRAM을 효율적으로 활용했습니다.
### 성능 분석 및 의미
1조 파라미터 모델을 단일 RTX 3060 GPU와 중고 옵테인 메모리로 초당 4토큰의 속도로 구동한 것은 상당한 성과입니다. 이는 고가의 최신 GPU와 HBM 메모리 없이도 대규모 LLM을 로컬 환경에서 실험하고 활용할 수 있는 가능성을 열어줍니다. 비록 4토큰/초가 상업적인 서비스 수준에는 미치지 못하지만, 개인 사용자가 '제한된 예산'으로 이 정도 규모의 모델을 다룰 수 있다는 점은 로컬 AI 개발 및 연구에 큰 동기를 부여할 것입니다. 또한, 이는 LLM 추론에 필요한 메모리 계층에 대한 새로운 관점을 제시합니다.
### 가치와 인사이트
이번 사례는 LLM 추론을 위한 고용량 메모리 솔루션의 중요성과 함께, 단종된 하드웨어의 재활용 가능성을 보여줍니다. 특히, 고가의 HBM 메모리에 대한 대안을 모색하는 과정에서 옵테인 PMem과 같은 중간 계층 메모리의 잠재력을 재확인했습니다. 이는 개인 개발자나 소규모 연구팀이 제한된 예산으로도 대규모 LLM을 로컬에서 실험하고 최적화할 수 있는 실질적인 방법을 제시하며, AI 기술의 접근성을 높이는 데 기여합니다. 또한, 하드웨어와 소프트웨어 최적화(llama.cpp의 'override-tensor' 등)를 통해 자원 제약을 극복하는 창의적인 접근법의 중요성을 강조합니다.
### 기술·메타
- Intel Optane Persistent Memory (DCPMM)
- Intel Xeon Gold 6246 CPU
- Nvidia GeForce RTX 3060 12GB GPU
- Kimi K2.5 (1-trillion-parameter LLM)
- llama.cpp
- Compute Express Link (CXL)
### 향후 전망
인텔 옵테인 PMem은 단종되었지만, DRAM과 SSD 사이의 메모리 계층에 대한 필요성은 LLM의 발전과 함께 더욱 커지고 있습니다. 이러한 간극은 향후 CXL(Compute Express Link) 표준을 통해 메워질 것으로 예상됩니다. CXL은 CPU와 GPU, 메모리 풀 간의 고속 연결을 제공하여, 저렴한 비용으로 대규모의 바이트 주소 지정 가능한 메모리 풀을 구축할 수 있게 할 것입니다. 이는 LLM과 같은 메모리 집약적인 워크로드에 이상적인 솔루션이 될 것이며, 이번 옵테인 사례가 보여준 '저렴한 고용량 메모리'의 필요성을 CXL이 충족시킬 것으로 기대됩니다. 앞으로 CXL 기반의 메모리 확장 기술이 상용화되면, 개인 워크스테이션에서도 훨씬 더 큰 LLM을 효율적으로 구동하는 것이 가능해질 것입니다. 또한, 이러한 기술 발전은 로컬 AI 생태계의 성장을 가속화하고, 클라우드 기반 LLM 서비스에 대한 대안을 제공할 잠재력을 가지고 있습니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48340216)
- 원문: [링크 열기](https://www.tomshardware.com/tech-industry/artificial-intelligence/enthusiast-runs-1-trillion-parameter-llm-from-768gb-of-intel-optane-dimm-memory-sticks-local-kimi-k2-5-install-achieved-roughly-4-tokens-per-second)
---
출처: Hacker News · [원문 링크](https://www.tomshardware.com/tech-industry/artificial-intelligence/enthusiast-runs-1-trillion-parameter-llm-from-768gb-of-intel-optane-dimm-memory-sticks-local-kimi-k2-5-install-achieved-roughly-4-tokens-per-second)

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.