[Hacker News 요약] Step 3.7 Flash, 고효율 멀티모달 에이전트 모델로 실세계 작업 및 코딩 능력 강화
30
설명
Step 3.7 Flash는 실세계 에이전트의 효율성을 극대화하기 위해 설계된 고성능 멀티모달 모델입니다. 이 모델은 이미지 이해, 웹 및 시각 검색 강화, 안정적인 도구 사용 및 오케스트레이션 기능을 제공하며, 다양한 에이전트 생태계와의 호환성을 자랑합니다. 특히 코딩 능력과 엔터프라이즈 작업 처리 능력에서 상당한 개선을 이루어, AI 에이전트의 새로운 지평을 열고 있습니다.
### 배경 설명
최근 AI 기술의 발전은 단순히 질문에 답하는 것을 넘어, 실제 세계에서 자율적으로 행동하는 'AI 에이전트'의 시대로 전환되고 있습니다. 이러한 에이전트들은 복잡한 작업을 계획하고 실행하며, 관찰하고 반복하는 능력을 필요로 합니다. 특히 디지털 환경에서 이러한 행동은 주로 코드를 통해 이루어지며, 이는 모델의 광범위한 에이전트 역량을 가늠하는 핵심 지표가 됩니다.
Step 3.7 Flash는 이러한 흐름 속에서 효율성과 실용성에 초점을 맞춰 개발되었습니다. 기존의 대규모 모델들이 뛰어난 성능을 보이지만 높은 비용과 자원 소모를 수반하는 반면, Flash 모델들은 '효율성'이라는 새로운 가치를 제시하며 실제 엔터프라이즈 환경에서의 적용 가능성을 높이고 있습니다. 멀티모달 능력은 에이전트가 텍스트뿐만 아니라 이미지, 문서, 차트 등 다양한 형태의 정보를 이해하고 상호작용할 수 있게 하여, 더욱 복잡하고 현실적인 작업을 수행할 수 있도록 돕습니다.
### 에이전트 효율성 및 코딩 능력 강화
Step 3.7 Flash는 에이전트 효율성을 최우선 목표로 삼아 개발되었습니다. 특히 코딩 능력에서 큰 진전을 보여, SWE-Bench Pro에서 Step 3.5 Flash 대비 5%p, Terminal-Bench 2.1에서 6.1%p 향상된 성능을 기록했습니다. 이는 모델이 디지털 세계에서 자율적으로 코드를 작성하고 실행하는 능력이 크게 개선되었음을 의미합니다. 또한, 다양한 에이전트 하네스(Claude Code, KiloCode 등)와의 호환성을 높여 통합 비용을 절감하고 워크플로우 재구축 부담을 줄였습니다.
### 어드바이저 모드와 엔터프라이즈 활용
Step 3.7 Flash는 효율성을 유지하면서도 품질을 높이기 위해 '어드바이저 모드(Advisor Mode)'를 지원합니다. 이 모드에서는 Step 3.7 Flash가 대부분의 작업을 직접 수행하고, 계획 수립이나 반복적인 실패 복구와 같이 자체 판단이 부족한 몇몇 변곡점에서만 더 큰 어드바이저 모델의 도움을 받습니다. 이를 통해 Claude Opus 4.6의 코딩 성능의 97%에 도달하면서도 작업당 비용은 약 1/9 수준으로 절감할 수 있습니다. 모델은 또한 동적인 환경에서의 자율적인 작업 실행과 깊이 있는 도메인별 지식 활용에 최적화되어 엔터프라이즈 지식 작업에 특화된 성능을 제공합니다.
### 심층 검색 및 멀티모달 시각 능력
Step 3.7 Flash는 방대한 세계 지식을 모델 가중치에 모두 담기보다, 필요할 때 해당 지식을 효과적으로 활용하는 데 중점을 둡니다. 이를 위해 검색 계획, 증거 필터링, 정보 합성 능력을 강화하여 검색을 추론 과정의 필수적인 부분으로 만들었습니다. HLE with Tools, BrowseComp, DeepSearchQA 등 검색 중심 벤치마크에서 뛰어난 성능을 보였습니다. 또한, 시각 입력 지원을 통해 '보는 에이전트'로서의 역량을 확립했습니다. Visual Search 도구와 Python 도구를 활용하여 고해상도 이미지의 미세한 인식 및 시각적 추론을 수행하며, GUI(그래픽 사용자 인터페이스) 조작 능력까지 갖춰 실제 앱 환경에서의 복잡한 작업을 처리할 수 있습니다.
### 주요 벤치마크 성능 비교
Step 3.7 Flash는 다양한 벤치마크에서 강력한 성능을 입증했습니다. SWE-Bench Pro, Terminal-Bench 2.1과 같은 코딩 관련 벤치마크에서 이전 버전 및 다른 Flash 모델들을 능가하는 개선을 보였습니다. 멀티모달 SimpleVQA, V* 등의 시각 인식 및 추론 벤치마크에서도 Kimi K2.6, GLM 5V Turbo 등과 유사하거나 더 나은 결과를 달성했습니다. 특히, 어드바이저 모드를 통해 비용 효율성을 크게 높이면서도 최상위 폐쇄형 모델에 근접한 성능을 제공하는 점이 주목할 만합니다.
### 배포 및 생태계 지원
Step 3.7 Flash는 StepFun Open Platform을 통해 API로 제공되며, 웹 및 모바일 앱에서도 사용 가능합니다. 배포 측면에서는 클라우드, 데이터 센터, 로컬 환경 등 유연한 옵션을 지원합니다. 대규모 프로덕션 및 엔터프라이즈 환경에서는 데이터 센터 인프라에 배포할 수 있으며, 워크스테이션 환경에서는 NVIDIA DGX Station, AMD Ryzen AI Max+ 395 기반 시스템, 128GB 이상의 통합 메모리를 갖춘 Mac Studio/Pro 등 고성능 장치에서도 실행됩니다. 추론 및 서빙을 위해 vLLM, SGLang, Hugging Face Transformers, llama.cpp와 같은 인기 있는 오픈소스 인프라를 지원하며, 모델 개발 워크플로우는 NVIDIA Megatron 생태계와 통합됩니다.
### 가치와 인사이트
Step 3.7 Flash는 개발자와 IT 전문가에게 실용적이고 비용 효율적인 AI 에이전트 솔루션을 제공합니다. 특히, 코딩 작업의 자동화 및 복잡한 엔터프라이즈 지식 작업 처리에 강점을 보여, 소프트웨어 개발, 데이터 분석, 고객 지원 등 다양한 분야에서 생산성 향상에 기여할 수 있습니다. 어드바이저 모드를 통한 비용 절감은 고성능 AI 에이전트의 접근성을 높여, 중소기업이나 스타트업에서도 최첨단 AI 기술을 활용할 수 있는 기회를 제공합니다. 멀티모달 능력과 심층 검색 기능은 에이전트가 더욱 다양한 형태의 정보를 이해하고 활용하여, 실제 세계의 복잡한 문제 해결에 필수적인 역할을 할 것입니다.
### 기술·메타
- vLLM
- SGLang
- Hugging Face Transformers
- llama.cpp
- NVIDIA Megatron ecosystem (Megatron Core, Megatron Bridge)
### 향후 전망
Step 3.7 Flash의 등장은 고효율 멀티모달 에이전트 모델 시장의 경쟁을 더욱 심화시킬 것으로 예상됩니다. 기존의 대규모 폐쇄형 모델들과의 성능 격차를 줄이면서도 비용 효율성을 극대화하는 전략은 많은 기업들에게 매력적인 대안이 될 것입니다. 향후에는 더욱 다양한 도구 및 시스템과의 통합이 강화되고, 특정 산업 도메인에 특화된 에이전트 개발이 가속화될 것으로 보입니다. 커뮤니티의 피드백과 활용 사례를 통해 모델의 기능이 더욱 정교해지고, 새로운 멀티모달 상호작용 방식이 탐구될 가능성도 큽니다. 장기적으로는 AI 에이전트가 인간의 개입 없이 더욱 복잡하고 자율적인 작업을 수행하는 시대를 앞당기는 데 중요한 역할을 할 것입니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48318960)
- 원문: [링크 열기](https://static.stepfun.com/blog/step-3.7-flash/)
---
출처: Hacker News · [원문 링크](https://static.stepfun.com/blog/step-3.7-flash/)

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.