[GeekNews 요약] 샤오미, 100만 토큰 컨텍스트를 지원하는 오픈소스 옴니모달 AI 모델 MiMo-V2.5 공개

15

설명

샤오미가 텍스트, 이미지, 비디오, 오디오 등 모든 모달리티를 통합적으로 이해하고 처리하는 옴니모달 AI 모델 'MiMo-V2.5'를 오픈소스로 공개했습니다. 이 모델은 최대 100만 토큰에 달하는 방대한 컨텍스트 길이를 지원하며, 강력한 에이전트 기능을 내장하여 복잡한 다중 작업 환경에서 뛰어난 성능을 발휘합니다. 개발자들은 MiMo-V2.5를 통해 차세대 멀티모달 애플리케이션 및 AI 에이전트 개발에 새로운 가능성을 탐색할 수 있을 것입니다. ### 배경 설명 최근 인공지능 분야는 텍스트 기반의 대규모 언어 모델(LLM)을 넘어, 시각, 청각 등 다양한 감각 데이터를 통합 처리하는 멀티모달 AI로 빠르게 진화하고 있습니다. 이는 인간의 인지 방식과 유사하게 여러 정보를 동시에 이해하고 추론하는 능력을 AI에 부여하려는 노력의 일환입니다. 특히, 단순히 여러 모달리티를 인식하는 것을 넘어, 이를 바탕으로 복잡한 작업을 계획하고 실행하는 '에이전트 AI'의 중요성이 부각되고 있습니다. 구글의 제미니, OpenAI의 GPT-4o 등 주요 빅테크 기업들이 옴니모달 및 에이전트 기능을 강화한 모델을 연이어 선보이며 기술 경쟁이 심화되는 가운데, 샤오미의 MiMo-V2.5 출시는 이러한 흐름에 동참하는 동시에, 오픈소스 전략을 통해 생태계 확장을 꾀하는 중요한 움직임으로 평가됩니다. 특히, 100만 토큰에 달하는 긴 컨텍스트 창은 복잡한 문서 분석, 장시간 비디오 요약, 다단계 에이전트 작업 등 기존 모델로는 어려웠던 영역에서 혁신적인 활용 가능성을 제시합니다. ### 1. MiMo-V2.5의 핵심 특징 및 아키텍처 MiMo-V2.5는 MiMo-V2-Flash 백본을 기반으로 구축된 네이티브 옴니모달 모델로, 텍스트, 이미지, 비디오, 오디오를 단일 아키텍처 내에서 이해하고 처리하는 강력한 에이전트 기능을 제공합니다. 이 모델은 하이브리드 어텐션 아키텍처를 채택하여 슬라이딩 윈도우 어텐션(SWA)과 글로벌 어텐션(GA)을 5:1 비율로 혼합 사용합니다. 이를 통해 KV-캐시 저장 공간을 약 6배 절감하면서도 100만 토큰에 이르는 긴 컨텍스트 성능을 유지합니다. 또한, 7억 2천 9백만 개의 파라미터를 가진 비전 트랜스포머(ViT)와 MiMo-Audio 가중치로 초기화된 전용 오디오 인코더를 통해 고품질의 이미지, 비디오, 오디오 이해 능력을 갖췄습니다. 모델의 LLM 백본은 희소 MoE(Mixture of Experts) 구조를 가지며, 총 310B 파라미터 중 15B가 활성화되는 효율적인 설계를 자랑합니다. 이러한 구조는 대규모 모델의 성능을 유지하면서도 추론 비용을 최적화하는 데 기여합니다. ### 2. 효율적인 훈련 및 에이전트 역량 강화 MiMo-V2.5는 총 약 48조 개의 토큰으로 효율적인 사전 훈련 과정을 거쳤습니다. 이 과정은 텍스트 사전 훈련, 멀티모달 프로젝터 워밍업, 대규모 멀티모달 사전 훈련으로 구성됩니다. 특히, FP8 혼합 정밀도 훈련을 통해 컴퓨팅 자원 효율성을 극대화했습니다. 훈련 후 단계에서는 SFT(Supervised Fine-Tuning), 대규모 에이전트 RL(Reinforcement Learning), 그리고 Multi-Teacher On-Policy Distillation (MOPD) 기법을 적용하여 에이전트 기능을 대폭 강화했습니다. 이 과정을 통해 모델은 복잡한 에이전트 작업과 멀티모달 이해 벤치마크에서 우수한 성능을 달성했으며, 컨텍스트 창은 32K에서 256K, 최종적으로 1M 토큰까지 점진적으로 확장되었습니다. 이러한 훈련 전략은 모델이 다양한 환경에서 자율적으로 문제를 해결하고, 여러 모달리티를 넘나들며 복합적인 추론을 수행할 수 있도록 지원합니다. ### 3. 배포 및 성능 평가 MiMo-V2.5는 SGLang 및 vLLM과 같은 주요 추론 엔진을 통한 배포를 공식적으로 지원합니다. 이는 개발자들이 모델을 실제 애플리케이션에 통합하고 활용하는 데 있어 높은 유연성과 최적화된 성능을 제공합니다. 샤오미는 최신 배포 가이드와 최적의 성능을 위한 권장 사항을 제공하며, 특히 SGLang 커뮤니티에서 공식적으로 지원하는 배포 방식을 강력히 추천하고 있습니다. 성능 평가 측면에서는 SWE Bench Pro 벤치마크에서 56.1점, Terminalbench 2.0 벤치마크에서 65.8점을 기록하며, 코딩 및 에이전트 작업 처리 능력에서 경쟁력 있는 수준임을 입증했습니다. 이러한 결과는 MiMo-V2.5가 단순한 멀티모달 이해를 넘어, 실제 문제 해결을 위한 에이전트로서의 잠재력을 가지고 있음을 시사합니다. ### 가치와 인사이트 MiMo-V2.5의 출시는 개발자와 IT 기업들에게 여러 중요한 가치와 시사점을 제공합니다. 첫째, 텍스트, 이미지, 비디오, 오디오를 아우르는 '옴니모달' 능력은 사용자 경험을 혁신할 수 있는 기반을 마련합니다. 예를 들어, 고객 서비스 챗봇이 텍스트 질문뿐만 아니라 사용자가 업로드한 이미지나 음성 메시지, 심지어 짧은 비디오 클립까지 이해하여 더욱 정확하고 풍부한 답변을 제공할 수 있게 됩니다. 둘째, 100만 토큰에 달하는 '장문 컨텍스트' 지원은 복잡한 전문 분야나 대규모 데이터 처리에서 모델의 활용도를 극대화합니다. 법률 문서 검토, 긴 연구 논문 요약, 여러 시간 분량의 회의록 분석 등 기존 LLM이 처리하기 어려웠던 작업들을 효율적으로 수행할 수 있게 되어, 생산성 향상에 크게 기여할 것입니다. 셋째, '에이전트 기능'은 AI가 단순한 정보 제공을 넘어 실제 작업을 수행하는 단계로 진화함을 의미합니다. 개발자들은 MiMo-V2.5를 활용하여 자율적으로 웹 검색, API 호출, 데이터 분석 등을 수행하는 AI 에이전트를 구축하여, 비즈니스 프로세스 자동화 및 개인화된 서비스 제공에 새로운 기회를 창출할 수 있습니다. 마지막으로, 샤오미의 '오픈소스' 전략은 기술 접근성을 높여 더 많은 개발자가 혁신에 참여하고, 모델을 개선하며, 다양한 산업 분야에 특화된 애플리케이션을 개발할 수 있도록 독려합니다. 이는 AI 생태계의 다양성과 활성화를 촉진하는 긍정적인 효과를 가져올 것입니다. ### 기술·메타 - **모델 유형**: 네이티브 옴니모달 AI 모델 (텍스트, 이미지, 비디오, 오디오) - **LLM 백본**: Sparse MoE (Mixture of Experts) - **총 파라미터**: 310B (활성화 파라미터: 15B) - **최대 컨텍스트 길이**: 1M 토큰 - **비전 인코더**: 729M 파라미터 ViT (하이브리드 윈도우 어텐션) - **오디오 인코더**: 261M 파라미터 오디오 트랜스포머 - **멀티 토큰 예측 (MTP)**: 329M 파라미터, 3개 레이어 - **훈련 토큰**: 약 48조 토큰 - **정밀도**: FP8 혼합 정밀도 - **주요 기능**: 하이브리드 어텐션 아키텍처, 네이티브 옴니모달 인코더, 멀티 토큰 예측, 효율적인 사전 훈련, 에이전트 기능 (SFT, RL, MOPD) - **지원 언어**: 영어, 중국어 - **라이선스**: MIT License - **평가 결과**: SWE Bench Pro (56.1), Terminalbench 2.0 (65.8) - **배포 지원**: SGLang, vLLM ### 향후 전망 MiMo-V2.5와 같은 옴니모달 에이전트 AI 모델의 등장은 향후 AI 시장의 경쟁 구도를 더욱 심화시킬 것입니다. 구글, OpenAI 등 선두 주자들과의 기술 격차를 줄이고, 특히 중국 내수 시장을 넘어 글로벌 시장에서 샤오미의 AI 역량을 입증하는 중요한 이정표가 될 수 있습니다. 앞으로 이러한 모델들은 스마트폰, 스마트 홈 기기, 로봇 등 샤오미의 광범위한 하드웨어 생태계와 결합하여 사용자에게 더욱 통합적이고 지능적인 경험을 제공할 것으로 예상됩니다. 예를 들어, 스마트폰에서 음성 명령과 카메라 입력을 동시에 받아 복합적인 작업을 수행하거나, 스마트 홈 기기가 사용자의 행동 패턴(비디오)과 음성(오디오)을 분석하여 선제적으로 환경을 조절하는 등의 시나리오가 현실화될 수 있습니다. 그러나 동시에 몇 가지 리스크와 도전 과제도 존재합니다. 대규모 멀티모달 모델의 훈련 및 배포에는 막대한 컴퓨팅 자원이 필요하며, 이는 비용 효율성 측면에서 중소기업이나 개인 개발자에게 여전히 큰 장벽으로 작용할 수 있습니다. 또한, 다양한 모달리티를 통합하는 과정에서 발생할 수 있는 데이터 편향성, 환각 현상(hallucination), 그리고 윤리적 문제에 대한 지속적인 연구와 해결 노력이 요구됩니다. 오픈소스 모델인 만큼 커뮤니티의 활발한 참여와 기여가 모델의 발전과 안정성에 중요한 영향을 미칠 것이며, 샤오미는 이러한 커뮤니티를 효과적으로 관리하고 지원하는 데 집중해야 할 것입니다. 장기적으로는 멀티모달 에이전트가 더욱 복잡한 추론과 자율적인 학습 능력을 갖추게 되면서, 인간과 AI의 상호작용 방식 자체가 근본적으로 변화할 잠재력을 가지고 있습니다. 📝 원문 및 참고 - 원문: [링크 열기](https://huggingface.co/XiaomiMiMo/MiMo-V2.5) - GeekNews 토픽: [보기](https://news.hada.io/topic?id=29006) --- 출처: GeekNews ([원문 링크](https://huggingface.co/XiaomiMiMo/MiMo-V2.5))
사이트 방문하기Visit Service

댓글 0

아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.