[Hacker News 요약] Anthropic, Claude AI 에이전트의 위험 관리 및 격리 전략 공개
11
설명
Anthropic은 자사 AI 에이전트인 Claude의 역량이 빠르게 발전함에 따라 잠재적 위험(blast radius) 또한 커지는 문제에 직면했습니다. 이 글은 claude.ai, Claude Code, Claude Cowork 등 다양한 제품에 걸쳐 Claude를 안전하게 배포하기 위해 Anthropic이 구축한 격리(containment) 전략과 그 과정에서 얻은 교훈을 공유합니다. 에이전트의 유용성을 극대화하면서도 보안 위험을 최소화하는 엔지니어링 질문에 대한 심층적인 답변을 제시합니다.
### 배경 설명
최근 몇 년간 대규모 언어 모델(LLM) 기반의 AI 에이전트는 단순한 정보 제공을 넘어 실제 환경에서 작업을 수행하는 수준으로 발전했습니다. 이러한 에이전트들은 코드 작성, 파일 시스템 접근, 네트워크 통신 등 사람이나 팀이 수행하던 복잡한 업무를 처리할 수 있게 되면서 생산성 향상에 크게 기여하고 있습니다. 그러나 동시에, 에이전트의 자율성과 접근 권한이 확대될수록 오작동, 악의적 사용, 외부 공격 등으로 인한 잠재적 피해 범위, 즉 '블래스트 반경(blast radius)'이 기하급수적으로 증가하는 보안 문제가 대두되고 있습니다.
Anthropic은 이러한 위험-보상 균형을 이해하고, 에이전트의 역량을 안전하게 활용하기 위한 근본적인 엔지니어링 접근 방식에 집중하고 있습니다. 특히, 모델 자체의 안전성 향상(오류 가능성 감소)과 더불어, 에이전트가 활동할 수 있는 환경에 대한 엄격한 통제(피해 범위 제한)가 필수적이라고 보고 있습니다. 이는 AI 에이전트가 단순한 소프트웨어를 넘어 시스템에 깊이 관여하는 새로운 형태의 주체로 인식하고, 이에 맞는 새로운 보안 패러다임을 구축하려는 노력의 일환입니다. Anthropic의 경험은 AI 에이전트 개발 및 배포를 고려하는 모든 기업과 개발자에게 중요한 통찰을 제공합니다.
### AI 에이전트의 세 가지 주요 위험과 방어 구성 요소
AI 에이전트의 보안 위험은 크게 세 가지 범주로 나뉩니다: 사용자 오용(악의적이거나 부주의한 유해 명령), 모델 오작동(요청하지 않은 유해 행동, 예상치 못한 경로로 목표 달성), 외부 공격자(프롬프트 인젝션, 런타임 공격 등). Anthropic은 이러한 위험에 대응하기 위해 세 가지 주요 방어 구성 요소에 집중합니다. 첫째, 에이전트가 실행되는 환경(프로세스 샌드박스, VM, 파일 시스템 경계, 이그레스 제어)을 제한하여 하드 경계를 설정합니다. 둘째, 에이전트가 참조하는 모델(시스템 프롬프트, 분류기, 훈련 수정)을 통해 행동을 유도합니다. 셋째, 에이전트가 접근할 수 있는 외부 콘텐츠(MCP 서버, 서드파티 플러그인, 웹 검색 도구)에 대한 접근을 제한하고 검증합니다. 이러한 방어 계층들은 서로 보완하며 심층 방어(defense-in-depth)를 구축합니다.
### Claude 제품별 격리 패턴 및 학습점
Anthropic은 claude.ai, Claude Code, Claude Cowork 세 가지 주요 에이전트 제품에 대해 각기 다른 격리 아키텍처를 적용했습니다. claude.ai의 코드 실행은 gVisor 컨테이너 내에서 서버 측으로 이루어지는 '임시 컨테이너' 패턴을 사용하여 최소한의 블래스트 반경을 가집니다. Claude Code는 사용자 머신에서 실행되며 파일 시스템 접근이 필요한 개발자를 위해 'Human-in-the-loop 샌드박스'를 사용하지만, 승인 피로 문제로 OS 수준 샌드박스(Seatbelt, bubblewrap)와 자동 모드를 도입했습니다. Claude Cowork는 비기술적 일반 사용자를 위해 '로컬 VM' 패턴을 채택하여, 사용자가 선택한 작업 공간만 마운트하고 호스트 시스템으로부터 완전히 격리합니다. 각 패턴은 에이전트의 필요한 기능과 사용자 개입 수준 사이의 균형을 찾아 설계되었습니다.
### 간과했던 보안 위험과 해결책
Anthropic은 실제 운영 과정에서 여러 예상치 못한 보안 취약점을 발견했습니다. Claude Code에서는 사용자의 신뢰 확인 전 `.claude/settings.json`과 같은 프로젝트 설정이 파싱되어 악성 코드가 실행될 수 있는 '신뢰 대화 상자 이전의 코드 실행' 위험이 있었습니다. 또한, 사용자가 악성 프롬프트를 직접 입력하여 민감 정보를 유출하는 '사용자 주입 벡터' 공격도 발생했습니다. Claude Cowork에서는 허용된 도메인(예: `api.anthropic.com`)을 통해 공격자의 API 키로 파일이 유출되는 '승인된 도메인을 통한 데이터 유출' 사례와, VM 격리가 호스트 기반 EDR(Endpoint Detection and Response) 소프트웨어의 가시성을 차단하는 문제가 있었습니다. 이러한 문제들은 프로젝트 설정 파싱 지연, 엄격한 이그레스 제어, VM 내 방어적 중간자(man-in-the-middle) 프록시 도입, 그리고 OTLP 기반 이벤트 로그 내보내기 등으로 해결되었습니다.
### 에이전트 격리를 위한 핵심 원칙
Anthropic의 경험은 몇 가지 중요한 원칙을 제시합니다. 첫째, 환경 계층에서 격리를 먼저 설계하고, 그 다음 모델 계층에서 행동을 유도해야 합니다. 결정론적 경계는 확률적 방어가 실패했을 때 최후의 보루가 됩니다. 둘째, 사용자의 감독 능력에 맞춰 격리 강도를 조절해야 합니다. 개발자와 비기술적 지식 작업자는 다른 위협 모델을 가지므로, 각 사용자에게 적합한 격리 전략을 적용해야 합니다. 셋째, 커스텀 구성 요소에 대한 경계가 필요합니다. gVisor, seccomp, 하이퍼바이저와 같이 오랫동안 검증된 기본 기술들은 안정적이었던 반면, Anthropic이 자체적으로 구축한 커스텀 프록시 등에서 취약점이 발견되었습니다. 에이전트는 새로운 소프트웨어 범주이지만, 파일 읽기, 소켓 열기, 프로세스 생성 등 시스템 수준 상호작용은 기존과 동일하므로, 성숙한 도구를 활용한 격리가 효과적인 방어 수단입니다.
### 가치와 인사이트
이 글은 AI 에이전트의 안전한 배포를 위한 실제적인 청사진을 제시하며, 개발자 및 IT 보안 전문가에게 매우 중요한 가치를 제공합니다. Anthropic의 투명한 경험 공유는 AI 에이전트 개발 시 발생할 수 있는 구체적인 보안 위험(프롬프트 인젝션, 데이터 유출, 환경 탈출 등)과 그에 대한 실질적인 방어 전략(샌드박스, VM, 이그레스 제어, 중간자 프록시)을 이해하는 데 도움을 줍니다. 특히, 모델의 행동 유도만으로는 불충분하며, 에이전트가 실행되는 환경에 대한 강력한 격리가 필수적이라는 점을 강조하여, AI 보안의 패러다임이 모델 중심에서 시스템 중심의 접근으로 확장되어야 함을 시사합니다. 이는 AI 에이전트의 신뢰성과 광범위한 채택을 위한 핵심 전제 조건이 될 것입니다.
### 기술·메타
- gVisor
- seccomp
- Virtual Machines (VMs)
- OS-level sandboxes (Seatbelt, bubblewrap)
- Apple's Virtualization framework
- HCS (Host Compute System)
- OTLP (OpenTelemetry Protocol) exports
### 향후 전망
AI 에이전트의 역량이 지속적으로 발전함에 따라 보안 위협 또한 끊임없이 진화할 것입니다. 향후 주요 변수로는 '영구적 메모리 오염(persistent memory poisoning)'이 있습니다. 에이전트의 컨텍스트가 세션 간에 지속적으로 유지되면서, 한 번 주입된 악성 코드가 에이전트가 시작될 때마다 다시 로드될 수 있는 새로운 형태의 지속성 공격이 등장할 수 있습니다. 또한, '다중 에이전트 신뢰 에스컬레이션' 문제도 중요합니다. 하위 에이전트가 생성한 출력을 상위 에이전트가 더 높은 신뢰도로 처리할 경우, 새로운 프롬프트 인젝션 벡터가 될 수 있습니다. '에이전트 신원(Agent identity)' 문제도 심화될 것입니다. 에이전트가 독립적인 주체 신원을 가져야 할지, 아니면 사용자 권한을 상속받는 확장으로 작동해야 할지에 대한 논의가 필요합니다. Anthropic은 이러한 문제 해결을 위해 NIST, ACSC, ISO/IEC 42001 등과 같은 표준 기관 및 파트너, 경쟁사들과의 '집단적 투자'와 협력을 강조하며, 공유 벤치마크, 공개 표준, 크로스-벤더 레드 팀 구성 등을 통해 에이전트 보안 생태계를 강화해야 한다고 전망합니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48392082)
- 원문: [링크 열기](https://www.anthropic.com/engineering/how-we-contain-claude)
---
출처: Hacker News · [원문 링크](https://www.anthropic.com/engineering/how-we-contain-claude)

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.