[Hacker News 요약] Liquid AI, 38T 토큰 학습 및 128K 컨텍스트 지원하는 온디바이스 MoE 모델 LFM2.5-8B-A1B 공개
16
설명
Liquid AI가 온디바이스 AI 시장을 겨냥한 새로운 Mixture-of-Experts(MoE) 모델인 LFM2.5-8B-A1B를 발표했습니다. 이 모델은 38조 개의 토큰으로 학습되었으며, 128K의 확장된 컨텍스트 윈도우를 지원하여 소비자 하드웨어에서도 빠르고 안정적인 도구 호출 및 복잡한 지시 수행이 가능합니다. 특히 비라틴어권 언어에 대한 토큰화 효율을 높이고 환각 현상을 줄이는 데 중점을 두어, 개인 비서와 같은 실생활 애플리케이션에 최적화되었습니다. 이는 온디바이스 AI의 성능과 접근성을 한 단계 끌어올릴 것으로 기대됩니다.
### 배경 설명
최근 몇 년간 대규모 언어 모델(LLM)의 발전은 놀라웠지만, 대부분 클라우드 기반으로 운영되어 높은 비용과 데이터 프라이버시 문제를 야기했습니다. 이에 따라 모델을 사용자 기기에서 직접 실행하는 '온디바이스 AI'의 중요성이 부각되고 있습니다. 온디바이스 AI는 네트워크 연결 없이 작동하며, 사용자 데이터를 기기 외부로 전송하지 않아 프라이버시를 강화하고, 지연 시간을 줄여 실시간 상호작용을 가능하게 합니다.
Mixture-of-Experts(MoE) 모델은 이러한 온디바이스 AI의 핵심 기술 중 하나로, 전체 모델의 파라미터 수는 많지만 실제 추론 시에는 소수의 '전문가' 네트워크만 활성화하여 효율성을 극대화합니다. 이는 제한된 자원을 가진 소비자 기기에서도 대규모 모델에 준하는 성능을 발휘할 수 있게 합니다. Liquid AI의 LFM2.5-8B-A1B는 이러한 MoE 아키텍처를 기반으로, 방대한 학습 데이터와 최적화된 설계로 온디바이스 AI의 새로운 가능성을 제시하며, 특히 에이전트 기반 애플리케이션의 발전에 크게 기여할 것으로 주목됩니다.
### LFM2.5-8B-A1B 개요 및 주요 특징
Liquid AI는 LFM2.5-8B-A1B를 소비자 하드웨어에서 빠르고 안정적인 도구 호출을 위해 설계된 엣지 모델로 소개합니다. 이 모델은 2025년 10월에 출시된 LFM2-8B-A1B의 후속작으로, 128K로 확장된 컨텍스트 윈도우, 12T에서 38T 토큰으로 확장된 사전 학습, 그리고 대규모 강화 학습을 통해 성능이 향상되었습니다. 특히 비라틴어권 언어의 토큰화 효율을 높이기 위해 어휘 크기를 두 배로 늘렸으며, 엔트리 레벨 노트북에서도 원활하게 작동하여 도구 호출을 연결하고 복잡한 작업을 수행할 수 있습니다. 기본 모델(LFM2.5-8B-A1B-Base)과 후처리 모델(LFM2.5-8B-A1B)은 Hugging Face와 Liquid AI Playground에서 즉시 사용 가능합니다.
### LFM2-8B-A1B 대비 개선점
LFM2.5-8B-A1B는 이전 버전인 LFM2-8B-A1B에 비해 여러 면에서 크게 개선되었습니다. 첫째, 컨텍스트 윈도우가 32,768 토큰에서 128,000 토큰으로 확장되어 더 긴 문서를 처리하고 장기적인 추론이 가능해졌습니다. 둘째, 어휘 크기가 65,536에서 128,000으로 늘어나 비라틴어 스크립트(힌디어, 태국어, 베트남어, 인도네시아어, 아랍어 등)의 토큰화 효율이 크게 향상되었습니다. 셋째, LFM2.5-8B-A1B는 '추론 전용' 모델로, 최종 답변 전에 명시적인 사고의 사슬(chain of thought)을 생성합니다. 이는 MoE 모델이 컴퓨팅 제약 환경에서 활성 파라미터 수가 적어 각 추론 토큰이 저렴하다는 점을 활용하여, 속도 저하 없이 품질을 크게 향상시키는 전략입니다. 이러한 변화는 모델의 전반적인 성능과 유용성을 크게 증대시켰습니다.
### 학습 과정의 혁신
모델 학습 과정에서는 여러 혁신적인 기법이 적용되었습니다. 토크나이저 확장은 기존 65K BPE 토크나이저를 128K로 확장하여 비라틴어 지원을 강화했으며, 기존 토큰 ID를 유지하면서 새로운 토큰을 추가하는 방식으로 효율적인 다국어 처리를 가능하게 했습니다. 컨텍스트 확장은 2T 토큰의 중간 학습 단계와 400B 토큰의 추가 학습 단계를 통해 128K 컨텍스트 윈도우를 달성했습니다. '둠 루프(Doom loops)' 감소를 위해 특정 컨텍스트에서 반복적인 행동을 유발하는 토큰을 식별하고, 확률 분포를 조정하는 타겟팅된 선호도 최적화 단계가 도입되었습니다. 또한, 엣지 모델의 한계인 환각 현상을 완화하기 위해 다양한 지식 데이터셋에 기반한 avg@k 보상을 사용하는 타겟팅된 RL 단계를 추가하여, 신뢰할 수 있는 지식 범위를 벗어나는 쿼리에 대한 '기권'을 강화하고 불확실성을 명확히 표현하도록 훈련했습니다.
### 벤치마크 성능 분석
LFM2.5-8B-A1B는 지식, 지시 따르기, 수학, 에이전트 워크플로우를 포괄하는 다양한 벤치마크에서 경쟁력 있는 성능을 보여주었습니다. 특히, 유사한 총 파라미터 수를 가진 덴스 모델 및 훨씬 큰 MoE 모델들과 비교하여 우위를 점했습니다. AA-Omniscience Index, IFEval, IFBench, Multi-IF 등 지시 따르기 벤치마크에서 높은 점수를 기록했으며, 환각 현상 비율(Non-Hallucination Rate)은 avg@k 기반 보상 덕분에 크게 낮아졌습니다. 수학 및 에이전트 워크플로우 벤치마크(MATH500, AIME25, BFCL, Tau²)에서도 강력한 성능을 보였으며, 특히 Tau²-Telecom 벤치마크에서 뛰어난 결과를 보여 온디바이스 완전 프라이빗 에이전트 구현의 첫걸음임을 입증했습니다. 이는 LFM2.5-8B-A1B가 실용적인 온디바이스 AI 솔루션으로서의 잠재력을 가지고 있음을 시사합니다.
### 광범위한 추론 생태계 지원
LFM2.5-8B-A1B는 출시 첫날부터 광범위한 추론 생태계를 지원합니다. Liquid AI의 엣지 AI 플랫폼인 LEAP(iOS 및 Android 배포용), 효율적인 엣지 추론을 위한 llama.cpp(GGUF 체크포인트), Apple Silicon에 최적화된 MLX, 프로덕션 처리량을 위한 GPU 가속 vLLM 및 SGLang, 그리고 다양한 가속기에서 크로스 플랫폼 추론을 위한 ONNX를 지원합니다. CPU 추론에서는 M5 Max에서 253 토큰/초, Ryzen AI Max+ 395에서 146 토큰/초의 빠른 디코딩 속도를 보여주며 6GB 미만의 메모리를 사용합니다. 심지어 휴대폰에서도 약 30 토큰/초의 속도를 유지하여, 강력한 개인 비서가 기기에서 즉시, 그리고 비공개로 실행될 수 있음을 보여줍니다. 이러한 광범위한 지원은 개발자들이 다양한 하드웨어 환경에서 모델을 쉽게 배포하고 활용할 수 있도록 합니다.
### 가치와 인사이트
Liquid AI의 LFM2.5-8B-A1B 출시는 온디바이스 AI의 실질적인 가능성을 한 단계 끌어올렸다는 점에서 큰 가치를 가집니다. 개발자들은 이 모델을 통해 사용자 기기에서 직접 실행되는 개인화되고 프라이빗한 AI 애플리케이션을 구축할 수 있게 됩니다. 특히, 확장된 컨텍스트 윈도우와 비라틴어 지원 강화는 글로벌 시장에서의 활용성을 높이며, 환각 현상 감소와 추론 품질 향상은 AI의 신뢰성을 높이는 데 기여합니다. 이는 의료, 금융, 자동차, 가전 등 다양한 산업 분야에서 데이터 프라이버시가 중요한 온디바이스 에이전트 및 개인 비서 솔루션의 개발을 가속화할 것입니다. 또한, 광범위한 추론 생태계 지원은 개발자들이 선호하는 환경에서 모델을 쉽게 통합하고 배포할 수 있도록 하여, 온디바이스 AI의 대중화를 촉진할 것으로 기대됩니다. 이는 AI 기술의 접근성을 높이고 새로운 비즈니스 모델을 창출하는 데 핵심적인 역할을 할 것입니다.
### 기술·메타
- llama.cpp (GGUF checkpoints)
- MLX (Apple Silicon)
- vLLM (GPU-accelerated serving)
- SGLang (GPU-accelerated serving)
- ONNX (Cross-platform inference)
### 향후 전망
LFM2.5-8B-A1B의 출시는 온디바이스 AI 시장의 경쟁을 더욱 심화시킬 것입니다. 다른 주요 AI 기업들도 효율적인 엣지 모델 개발에 박차를 가하고 있으며, Liquid AI는 지속적인 성능 개선과 새로운 기능 추가를 통해 선두를 유지해야 할 것입니다. 향후에는 더욱 다양한 전문 분야에 특화된 MoE 모델들이 등장할 수 있으며, 멀티모달(Multi-modal) 기능이 통합되어 온디바이스 AI의 활용 범위가 더욱 넓어질 것으로 예상됩니다. 커뮤니티 측면에서는 Hugging Face와 같은 플랫폼을 통한 모델 접근성 및 개발자 지원이 중요해질 것이며, 오픈소스 생태계와의 협력을 통해 모델의 발전과 확산이 가속화될 수 있습니다. 궁극적으로는 개인의 모든 디지털 경험에 AI 에이전트가 내재화되는 '완전 프라이빗 온디바이스 에이전트' 시대의 도래를 앞당기는 중요한 변곡점이 될 것입니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48325306)
- 원문: [링크 열기](https://www.liquid.ai/blog/lfm2-5-8b-a1b)
---
출처: Hacker News · [원문 링크](https://www.liquid.ai/blog/lfm2-5-8b-a1b)

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.