[Techmeme 요약] 구글 제미나이 3.5 플래시에 '컴퓨터 사용' 기능 내장, API 및 엔터프라이즈 플랫폼 통해 제공
1
설명
구글이 제미나이 3.5 플래시(Gemini 3.5 Flash) 모델에 '컴퓨터 사용(computer use)' 기능을 통합했다고 2024년 6월 24일 발표했습니다.
이 새로운 기능은 개발자들이 다양한 플랫폼에서 상호작용하는 에이전트(agent)를 더욱 쉽게 구축할 수 있도록 지원합니다.
이제 제미나이 API와 제미나이 엔터프라이즈 에이전트 플랫폼(Gemini Enterprise Agent Platform)을 통해 이 기능을 이용할 수 있습니다.
### 배경 설명
인공지능(AI) 모델은 특정 작업을 수행하도록 설계되는데, '컴퓨터 사용' 기능은 AI 모델이 실제 컴퓨터 환경과 상호작용할 수 있도록 하는 기술입니다. 이는 단순히 정보를 제공하는 것을 넘어, 웹 브라우징, 파일 조작, 애플리케이션 실행 등 사용자의 컴퓨터에서 직접 작업을 수행할 수 있게 합니다. 이전에는 별도의 모델로 제공되었던 이 기능이 이제 제미나이 3.5 플래시라는 더 범용적인 모델에 통합되면서, AI 에이전트 개발의 새로운 가능성을 열었습니다.
제미나이 3.5 플래시는 구글 딥마인드(Google DeepMind)에서 개발한 대규모 언어 모델(LLM)의 한 종류로, 특히 빠르고 효율적인 작업 처리에 강점을 보입니다. 이번 업데이트를 통해 제미나이 3.5 플래시는 기존의 함수 호출(function calling) 및 검색(Search), 지도(Maps)와 같은 내장 도구 활용 능력을 넘어, 브라우저, 모바일, 데스크톱 환경 전반에서 보고, 추론하고, 행동하는 맞춤형 에이전트를 안정적으로 구축할 수 있게 되었습니다.
### 새로운 '컴퓨터 사용' 기능의 핵심
제미나이 3.5 플래시에 통합된 '컴퓨터 사용' 기능은 개발자들이 AI 에이전트가 실제 컴퓨터 환경과 상호작용하도록 만드는 것을 목표로 합니다. 이를 통해 에이전트는 웹사이트를 탐색하고, 정보를 추출하며, 애플리케이션을 제어하는 등 복잡한 작업을 수행할 수 있습니다. 예를 들어, 소프트웨어의 지속적인 테스트나 전문 애플리케이션 전반에 걸친 지식 작업과 같이 장기적인 자동화 작업의 성능을 향상시킬 수 있습니다. 이 기능은 제미나이 API와 제미나이 엔터프라이즈 에이전트 플랫폼을 통해 개발자들에게 제공됩니다.
### 향상된 에이전트 구축 및 활용
이번 통합으로 개발자들은 제미나이 3.5 플래시를 사용하여 더욱 강력하고 다재다능한 AI 에이전트를 만들 수 있습니다. 이 에이전트들은 브라우저, 모바일, 데스크톱 등 다양한 환경에서 정보를 보고, 추론하며, 실제 행동을 취할 수 있습니다. 이는 특히 기업 환경에서 반복적인 업무 자동화, 복잡한 데이터 분석, 고객 지원 등 다양한 분야에서 활용될 것으로 기대됩니다. 예를 들어, 제미나이 3.5 플래시는 자체 문서의 접근성 문제를 분석하고 분류된 목록을 반환하는 데 이 기능을 활용할 수 있습니다.
### 안전성 강화 조치
구글은 실시간 환경에서 작동하는 에이전트의 프롬프트 주입(prompt injection) 위험을 완화하기 위해 제미나이 3.5 플래시의 '컴퓨터 사용' 기능에 대한 표적 적대 훈련(targeted adversarial training)을 사용합니다. 또한, 기업 고객을 위해 두 가지 선택적 보안 시스템을 제공합니다. 첫 번째는 민감하거나 되돌릴 수 없는 작업에 대해 사용자에게 명시적인 확인을 요구하는 기능이며, 두 번째는 간접적인 프롬프트 주입이 감지될 경우 작업을 자동으로 중지하는 기능입니다. 이러한 조치들은 샌드박싱(sandboxing), 인간의 검증(human-in-the-loop verification), 엄격한 접근 통제와 함께 사용될 때 더욱 효과적입니다.
### 가치와 인사이트
제미나이 3.5 플래시에 '컴퓨터 사용' 기능이 내장되면서, AI 에이전트 개발의 진입 장벽이 낮아지고 활용 범위가 크게 확장되었습니다. 이는 개발자들이 더욱 복잡하고 실제적인 작업을 수행하는 AI 에이전트를 더 쉽게 만들 수 있게 되었다는 점에서 중요합니다. 특히 기업들은 이 기능을 통해 업무 자동화 및 생산성 향상을 가속화할 수 있을 것으로 보입니다. 구글이 제시한 안전 조치들은 AI 에이전트의 신뢰성과 보안성을 높이는 데 기여할 것입니다.
### 기술·메타
- 모델: Gemini 3.5 Flash
- API: Gemini API
- 플랫폼: Gemini Enterprise Agent Platform
- 기술: Computer Use, Function Calling, Search, Maps
### 향후 전망
이번 업데이트는 AI 에이전트가 단순한 정보 제공자를 넘어, 실제 컴퓨터 환경에서 능동적으로 작업을 수행하는 '디지털 비서'로 발전하는 데 중요한 발판을 마련했습니다. 향후에는 더욱 정교한 자동화 시스템, 개인 맞춤형 서비스, 복잡한 문제 해결을 위한 AI 에이전트의 등장을 기대할 수 있습니다. 예를 들어, 소프트웨어 개발 과정에서 버그를 자동으로 찾고 수정하거나, 금융 시장 데이터를 분석하여 투자 결정을 지원하는 등의 작업이 가능해질 수 있습니다. 또한, 이러한 AI 에이전트의 확산은 일자리 구조 변화, 새로운 직무 창출, 그리고 AI 윤리 및 규제에 대한 논의를 더욱 심화시킬 것입니다.
📝 원문 및 참고
- Source: Techmeme
- Techmeme 리버: [techmeme.com](https://www.techmeme.com/260624/p34#a260624p34)
- 원문 기사: [링크 열기](https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/)
---
출처: Techmeme ([Original Article](https://blog.google/innovation-and-ai/models-and-research/gemini-models/introducing-computer-use-gemini-3-5-flash/))
신고 · 불법·유해·아동 안전(CSAE) 관련 콘텐츠

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.