[Hacker News 요약] Kog Labs, 표준 GPU에서 초당 3천 토큰 LLM 추론 속도 달성: AI 에이전트 시대의 새로운 가능성
24
설명
Kog Labs가 표준 데이터센터 GPU에서 실시간 LLM 추론 속도를 획기적으로 개선한 'Kog Inference Engine (KIE)'의 기술 프리뷰를 공개했습니다. 이 엔진은 8개의 AMD MI300X GPU에서 초당 3,000 토큰, 8개의 NVIDIA H200 GPU에서 초당 2,100 토큰의 놀라운 속도를 달성하며, 기존 소프트웨어 스택의 한계를 뛰어넘는 성능을 선보였습니다. 이는 특히 AI 에이전트와 같이 단일 요청에 대한 빠른 응답 속도가 중요한 애플리케이션에 혁신적인 변화를 가져올 것으로 기대됩니다.
### 배경 설명
최근 몇 년간 대규모 언어 모델(LLM)의 발전은 AI 기술의 지평을 넓혔지만, 이를 실제 서비스에 적용하는 과정에서는 높은 추론 비용과 지연 시간이 큰 걸림돌이었습니다. 특히 AI 에이전트와 같은 자율적인 시스템은 '검사-계획-편집-테스트-수정'과 같은 순차적인 루프를 반복하며 작동하기 때문에, 각 단계에서 LLM의 응답 속도가 전체 작업 흐름의 효율성을 결정합니다. 기존의 LLM 추론 벤치마크는 주로 총 처리량(Aggregate Throughput)이나 첫 토큰 생성 시간(Time to First Token)에 초점을 맞췄지만, AI 에이전트에게는 단일 요청당 토큰 생성 속도(Decode Speed per Request)가 가장 중요한 지표가 됩니다.
Kog Labs는 이러한 단일 요청 디코딩 속도의 병목 현상이 GPU 하드웨어의 한계가 아니라, 기존 추론 소프트웨어 스택의 비효율성에서 비롯된다고 지적합니다. 특히, 배치 크기가 1일 때 자동 회귀 디코딩은 행렬-벡터 연산에 의해 지배되며, 이 과정에서 모델의 활성 가중치가 GPU 메모리 계층을 통해 이동해야 합니다. 따라서 토큰 생성 속도는 FLOPS(부동 소수점 연산)가 아닌 메모리 대역폭(Memory Bandwidth)에 의해 제한되는 '메모리 대역폭 최대화 문제'로 정의됩니다. 현대 AI GPU는 높은 HBM(고대역폭 메모리) 대역폭을 제공하지만, 소프트웨어 스택이 이를 충분히 활용하지 못해 잠재력을 발휘하지 못하고 있었습니다.
### AI 에이전트 시대의 단일 요청 추론 속도 중요성
AI 에이전트의 핵심은 순차적인 상호작용과 반복적인 작업 수행 능력에 있습니다. 예를 들어, 에이전트가 50,000 토큰을 생성해야 하는 워크플로우에서 초당 100 토큰은 약 8분, 초당 3,000 토큰은 20초 미만의 시간이 소요됩니다. 이러한 속도 차이는 개발 가능한 제품의 종류와 사용자 경험을 근본적으로 변화시킵니다. 에이전트가 더욱 자율화될수록, 생산성 한계는 단순히 지능을 넘어 '지능 × 반복 속도'로 전환됩니다. Kog Labs는 이러한 이유로 단일 요청 지연 시간 최적화를 최우선 목표로 삼았으며, 배치 크기 1에서의 성능 향상에 집중했습니다.
### 기존 추론 스택의 마이크로초 손실 원인
초당 3,000 토큰을 달성하려면 토큰당 예산이 약 333 마이크로초에 불과합니다. 기존의 추상화된 소프트웨어 스택(PyTorch, Triton 등 고수준 프레임워크, 다수의 커널, CPU 런타임 스케줄링, 커널 경계 동기화)은 유연성과 유지보수성에는 이점이 있지만, 이러한 엄격한 마이크로초 예산에는 부적합합니다. 커널 실행 및 정리 오버헤드, CPU-GPU 통신 지연, GPU 내 동기화, GPU 간 통신, 불완전한 캐시 관리 등 다양한 요인들이 귀중한 마이크로초를 낭비하며 메모리 스트리밍을 방해합니다. 예를 들어, 25개 레이어 모델에서 커널 실행 오버헤드만으로도 토큰당 수백 마이크로초가 소요되어 이론적인 속도 한계에 도달하지 못하게 됩니다.
### Kog의 혁신적인 공동 설계 접근 방식
Kog Labs는 이러한 문제를 해결하기 위해 모델 아키텍처, 런타임, 저수준 GPU 코드를 하나의 지연 시간 최적화 파이프라인으로 공동 설계했습니다. 주요 혁신은 다음과 같습니다.
* **모노커널 런타임 및 최적화된 GPU 코드**: 토큰 생성을 단일의 영구적인 GPU 프로그램으로 실행하여 커널 경계를 제거하고, 호스트 측 스케줄링 및 CPU 측 토큰 샘플링을 핵심 경로에서 제외합니다. 이를 통해 동기화, 통신, 프리페치 및 실행 순서를 훨씬 더 정밀하게 제어할 수 있습니다.
* **KCCL GPU 간 통신**: 모델이 여러 GPU에 걸쳐 병렬화될 때 발생하는 GPU 간 통신(AllReduce)의 지연 시간을 최소화하기 위해 맞춤형 통신 레이어를 개발했습니다. KCCL은 벤더 라이브러리보다 훨씬 낮은 3 마이크로초 미만의 지연 시간을 달성합니다.
* **Laneformer 모델 아키텍처**: '지연된 텐서 병렬화(Delayed Tensor Parallelism, DTP)'를 통해 GPU 간 통신 오버헤드를 유용한 계산과 중첩시켜 핵심 경로를 차단하지 않도록 모델 아키텍처 자체를 설계했습니다.
* **하드웨어 인식 소프트웨어 디자인**: AMD MI300X의 XCD(Compute Die) 및 IOD(I/O Die) 칩렛 토폴로지를 분석하여 메모리 버퍼를 최적의 위치에 복제하고, 물리적 메모리 주소-IOD 매핑을 활용하여 동기화 지연 시간을 최소화했습니다.
### 기술 프리뷰 성과 및 확장 전략
Kog Inference Engine은 현재 8개의 AMD MI300X 노드에서 배치 크기 1의 2B 코딩 모델(Laneformer)로 초당 3,000 토큰의 속도를 시연하고 있습니다. 이는 양자화, 추측 디코딩, 가지치기 등 다른 최적화 기법을 사용하지 않은 순수한 성능입니다. 8개의 NVIDIA H200 노드에서는 초당 2,100 토큰을 달성했습니다. Kog Labs는 향후 이러한 저수준 최적화 기법들을 추가하여 더 큰 모델과 배치 크기를 지원할 계획입니다.
또한, 이 기술은 '활성 매개변수 바이트'를 기준으로 대규모 타사 MoE(Mixture-of-Experts) 모델에도 확장 가능하다고 주장합니다. MoE 모델은 전체 매개변수 수는 많지만, 토큰 생성 시 활성화되는 매개변수는 훨씬 적기 때문입니다. Kog Labs는 현재 기술로도 8× H200 노드에서 Qwen3-Coder-Next (3B 활성 매개변수, FP8) 모델의 경우 초당 약 3,650 토큰, DeepSeek-V4-Pro (49B 활성 매개변수, MXFP4/FP8) 모델의 경우 초당 약 305 토큰의 추론 속도를 달성할 수 있을 것으로 예측하고 있습니다. 이는 GPU HBM 대역폭이 증가함에 따라 더욱 향상될 것입니다.
### 가치와 인사이트
Kog Labs의 성과는 AI 에이전트 개발의 새로운 지평을 열고 있습니다. 단일 요청에 대한 LLM 추론 속도가 획기적으로 빨라지면서, AI 에이전트의 '사고' 및 '행동' 루프가 훨씬 더 빠르게 반복될 수 있게 됩니다. 이는 더 복잡하고 정교한 에이전트 워크플로우를 가능하게 하며, 실시간 상호작용이 필요한 애플리케이션(예: 자율 코딩 에이전트, 실시간 고객 서비스 봇, 복잡한 시뮬레이션)의 성능을 비약적으로 향상시킬 것입니다. 또한, 전용 추론 하드웨어에 대한 의존도를 줄이고 표준 데이터센터 GPU의 잠재력을 최대한 활용함으로써, 고성능 AI 추론의 접근성을 높이고 비용 효율성을 개선할 수 있다는 점에서 산업 전반에 큰 영향을 미칠 것으로 보입니다. 이는 특정 하드웨어 벤더에 대한 종속성을 완화하고, 더 많은 기업이 자체 인프라를 활용하여 AI 에이전트를 구축할 수 있는 기회를 제공합니다.
### 기술·메타
- CUDA (NVIDIA GPU)
- HIP (AMD GPU)
- PTX inline assembly (NVIDIA GPU)
- CDNA ISA inline assembly (AMD GPU)
- Monokernel runtime
- KCCL (Kog Custom Collective Communication Layer)
- Laneformer model architecture
- Delayed Tensor Parallelism (DTP)
- AMD MI300X, NVIDIA H200 GPUs
### 향후 전망
향후 GPU 세대(NVIDIA Rubin, AMD MI450 등)는 현재보다 4배 높은 메모리 대역폭을 제공할 것으로 예상됩니다. 이는 동일한 속도로 4배 더 큰 모델을 실행하거나, 훨씬 적은 수의 GPU로도 현재와 같은 고속 추론을 가능하게 할 것입니다. Kog Labs는 이러한 하드웨어 발전과 함께 자체 스택의 지속적인 최적화를 통해 대규모 MoE 모델의 추론 속도를 초당 1,000~5,000 토큰 범위로 끌어올릴 것으로 전망하고 있습니다. 경쟁 측면에서는 다른 추론 엔진들도 저수준 최적화에 더 많은 투자를 할 것이며, 이는 전체 AI 추론 시장의 기술 수준을 상향 평준화할 것입니다. 커뮤니티 측면에서는 이러한 고성능 추론 기술이 오픈소스 모델과 결합되어 AI 에이전트 생태계의 혁신을 가속화할 것으로 기대됩니다. Kog Labs는 양자화, 추측 디코딩 등 추가적인 최적화 기법들을 로드맵에 포함하고 있어, 앞으로 더욱 향상된 성능을 기대할 수 있습니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48321076)
- 원문: [링크 열기](https://blog.kog.ai/real-time-llm-inference-on-standard-gpus-3-000-tokens-s-per-request/)
---
출처: Hacker News · [원문 링크](https://blog.kog.ai/real-time-llm-inference-on-standard-gpus-3-000-tokens-s-per-request/)

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.