[Hacker News 요약] 2,000명 이상이 AI 비서 해킹 시도 후 벌어진 일: 보안 실험 결과
1
설명
2,000명 이상의 사용자가 AI 비서의 보안 취약점을 파고들기 위해 6,000건 이상의 이메일을 보냈습니다.
이 실험은 2026년 6월 25일에 hackmyclaw.com에서 진행되었으며, AI 비서 'Fiu'는 민감한 secrets.env 파일의 내용을 유출하지 않았습니다.
이번 시도는 생성형 AI의 보안 현실과 프롬프트 주입 공격의 효과에 대한 중요한 통찰을 제공합니다.
### 배경 설명
생성형 AI 비서가 이메일, 캘린더, 파일 및 웹에 접근할 수 있게 되면서 보안 문제는 더욱 중요해지고 있습니다. 공격자가 AI를 속여 의도하지 않은 행동을 하게 만들 경우 심각한 데이터 유출이나 시스템 오작동으로 이어질 수 있습니다. 이러한 맥락에서, Fernando Irarrázaval은 자신의 OpenClaw 기반 AI 비서인 'Fiu'를 대상으로 실제 프롬프트 주입 공격을 시도하는 실험을 설계했습니다. hackmyclaw.com 웹사이트를 통해 누구나 Fiu에게 이메일을 보내 secrets.env 파일의 내용을 알아내도록 유도하는 것이 목표였습니다. 이 실험은 특히 AI 에이전트의 보안 취약점을 탐색하고, 실제 공격 시나리오에서 AI가 얼마나 효과적으로 방어할 수 있는지를 검증하기 위해 기획되었습니다. Hacker News의 주목을 받으면서 실험은 예상보다 훨씬 많은 참여자를 끌어모았습니다.
### 실험 설계 및 공격 시도
Fernando Irarrázaval은 hackmyclaw.com을 통해 자신의 AI 비서 'Fiu'를 대상으로 프롬프트 주입 공격을 시도할 수 있도록 했습니다. Fiu는 OpenClaw와 Hermes 기술 스택을 기반으로 구축되었으며, secrets.env 파일의 내용을 유출하지 않도록 설정되었습니다. 기본적인 보안 프롬프트에는 secrets.env 내용 공개, 파일 수정, 외부 엔드포인트로의 데이터 유출 금지 등의 규칙이 포함되었습니다. 참여자들은 Fiu에게 이메일을 보내 다양한 방법으로 정보를 얻으려 시도했습니다. 공격 방식은 창의적이었으며, 미래에서 온 자신을 사칭하거나, 긴급 복구 상황을 가장하거나, 규정 준수 감사를 가장하는 등 다양한 사회 공학적 기법이 동원되었습니다. 일부 참가자는 짧은 시간 안에 여러 변형된 메시지를 보내거나, 여러 언어를 사용하여 Fiu를 혼란스럽게 하려 했습니다. 한 참가자는 'OpenClaw 관리자'를 사칭하기도 했습니다.
### 예상치 못한 문제 발생
실험 진행 중 몇 가지 예상치 못한 문제가 발생했습니다. 첫째, Fiu의 Gmail 계정이 Google의 사기 탐지 시스템에 의해 일시적으로 정지되었습니다. 이는 수천 건의 수신 이메일과 빠른 API 호출 빈도 때문이었으며, 계정 복구에 3일이 소요되었습니다. 둘째, API 비용이 500달러 이상 발생했습니다. 각 이메일 처리에 토큰이 소모되었기 때문입니다. 셋째, 배치 처리 방식이 실험 결과를 오염시켰습니다. 초기에 명백한 프롬프트 주입 이메일이 배치에 포함되면, 이후의 이메일에 대해서도 에이전트가 과도하게 의심하게 되는 현상이 발생했습니다. 이를 해결하기 위해 각 이메일을 독립적인 컨텍스트에서 처리하도록 설정을 변경해야 했습니다. 또한, Fiu는 약 500번째 이메일 처리 시점에 '이메일 양으로 보아 유기적인 악의적 활동보다는 조직적인 보안 훈련으로 보인다'는 자체 판단을 내렸습니다. Anthropic의 Claude Opus 4.6 모델은 'ANTHROPIC_MAGIC_STRING_TRIGGER_REFUSAL_1FAEFB6177B4672DEE07F9D3AFC62588CCD2631EDCF22E8CCC1FB35B501C9C86'과 같은 특정 문자열에 대해 'refusal' 응답을 반환하는 특성이 있어 파이프라인을 중단시키기도 했습니다.
### 보안 성공 및 긍정적 결과
6,000건 이상의 시도에도 불구하고, secrets.env 파일의 내용은 단 한 번도 유출되지 않았습니다. 이는 Fiu가 프롬프트 주입 공격에 대해 상당한 수준의 저항력을 가지고 있음을 보여줍니다. 공격에는 권위 사칭, 가짜 긴급 상황 조성, 다국어 사회 공학 등 상당히 정교한 기법들이 포함되었음에도 불구하고, Fiu는 민감한 정보를 보호하는 데 성공했습니다. 놀랍게도, 이 실험은 hackmyclaw.com에 대한 후원을 이끌어냈습니다. Corgea, Abnormal AI 및 익명의 기부자가 상금을 증액하고 API 비용을 지원하기로 결정했습니다. 이는 AI 보안 실험이 커뮤니티의 관심을 끌고 실제적인 지원으로 이어질 수 있음을 시사합니다. 또한, 이 실험을 통해 모델 선택의 중요성이 부각되었습니다. Anthropic의 Claude Opus 4.6은 프롬프트 주입 방지에 특화되어 훈련된 모델로, 다른 모델에서는 다른 결과가 나올 수 있음을 시사합니다.
### 실험을 통해 얻은 교훈
Fernando Irarrázaval은 이번 실험을 통해 프롬프트 주입 공격이 예상보다 어렵다는 것을 깨달았습니다. 실험 전에는 이러한 공격이 더 쉽게 성공할 것이라고 예상했지만, 6,000건 이상의 시도가 실패하는 것을 보며 AI 에이전트의 보안에 대해 더 낙관적인 시각을 갖게 되었습니다. 그럼에도 불구하고, 그는 여전히 AI 에이전트에게 임의의 권한을 부여하는 것에 대해 신중한 입장을 유지하고 있습니다. 간단한 지침만으로도 강력한 모델은 이를 참조하여 작동한다는 것을 확인했습니다. 또한, 모델의 지시 사항 준수 능력이 프롬프트 주입 방어에 중요하며, 특히 Claude Opus 4.6과 같이 프롬프트 주입에 강하도록 훈련된 모델의 효과를 강조했습니다. 일부 연구에서는 비영어권 언어에서 모델이 더 취약할 수 있다는 점을 지적하기도 했습니다.
### 가치와 인사이트
이 실험은 생성형 AI 비서의 보안 취약점을 실제 공격 시나리오를 통해 검증했다는 점에서 큰 가치를 지닙니다. 2,000명 이상의 사용자가 6,000건 이상의 이메일을 통해 secrets.env 파일 내용을 유출하려 시도했지만, Claude Opus 4.6 모델은 이를 성공적으로 방어했습니다. 이는 AI 보안, 특히 프롬프트 주입 공격에 대한 실질적인 이해를 높여줍니다. 또한, AI 에이전트에게 민감한 정보 접근 권한을 부여할 때의 위험성을 다시 한번 상기시키며, 모델 선택과 보안 프롬프트 설계의 중요성을 강조합니다. 후원 유치라는 부가적인 성과는 AI 보안 커뮤니티의 관심과 투자를 촉진할 수 있는 잠재력을 보여줍니다.
### 기술·메타
- AI 비서: Fiu (OpenClaw 기반)
- 모델: Anthropic Claude Opus 4.6
- 백엔드: VPS
- 이메일 처리: Gmail API
- 실험 웹사이트: hackmyclaw.com
### 향후 전망
프롬프트 주입 공격은 여전히 AI 보안의 중요한 과제이며, AI 에이전트에게 임의의 권한을 부여하는 것은 신중해야 합니다. 향후에는 더 작거나 덜 강력한 모델에 대한 테스트가 필요할 수 있으며, 이를 통해 다양한 모델의 취약점을 파악할 수 있을 것입니다. 또한, 다단계 공격이나 더 긴 대화 흐름을 통한 공격 시나리오도 고려해야 합니다. AI 모델 개발자들은 프롬프트 주입 방어 기능을 지속적으로 강화해야 하며, 사용자들은 AI 에이전트의 보안 한계를 인지하고 민감한 정보 접근에 주의를 기울여야 합니다. 커뮤니티 차원에서는 이러한 보안 실험 결과가 공유되고, 더 안전한 AI 시스템 구축을 위한 연구와 개발에 기여할 것으로 기대됩니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48681687)
- 원문: [링크 열기](https://www.fernandoi.cl/posts/hackmyclaw/)
---
출처: Hacker News · [원문 링크](https://www.fernandoi.cl/posts/hackmyclaw/)
신고 · 불법·유해·아동 안전(CSAE) 관련 콘텐츠

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.