[Lobsters 요약] Anthropic, Claude Fable 5 재배포 및 AI 보안 프레임워크 구축 협력
4
설명
Anthropic은 2026년 6월 30일, 미국 정부의 수출 통제로 인해 일시 중단되었던 Claude Fable 5 및 Claude Mythos 5 모델의 접근을 재개한다고 발표했습니다.
이 사건은 AI 모델의 안전성, 특히 사이버 보안 관련 잠재적 오용 방지를 위한 업계 전반의 협력과 표준화 필요성을 부각시켰습니다.
Anthropic은 미국 정부 및 주요 기술 기업들과 협력하여 AI 모델의 취약점 평가 및 대응을 위한 새로운 프레임워크를 개발 중입니다.
### 배경 설명
생성형 AI 모델의 발전은 다양한 분야에서 혁신을 가져오고 있지만, 동시에 잠재적인 오용 및 보안 위협에 대한 우려도 커지고 있습니다. 특히, AI 모델이 사이버 보안 취약점을 식별하거나 악용하는 데 사용될 수 있다는 가능성은 심각한 문제로 인식되고 있습니다. 이러한 맥락에서 Anthropic이 개발한 Claude Fable 5와 같은 최신 모델은 강력한 성능을 제공하는 동시에, 의도치 않은 오용을 방지하기 위한 정교한 안전 장치를 갖추고 있습니다. 그러나 2026년 6월 12일, 미국 정부는 Claude Fable 5 및 Claude Mythos 5 모델에 대한 수출 통제를 발동했는데, 이는 Amazon 연구원들이 Fable 5의 안전 장치를 우회하여 소프트웨어 취약점을 식별하고 이를 악용하는 방법을 시연한 보고서에 따른 조치였습니다. 이로 인해 해당 모델들에 대한 접근이 일시적으로 제한되었으며, 특히 해외 사용자는 물론 미국 내 사용자에게도 접근이 차단되었습니다. 이는 AI 모델의 안전성 검증 및 규제에 대한 복잡성을 보여주는 사례입니다. Anthropic은 이러한 상황에 신속하게 대응하여 미국 정부와 협력하고, 모델의 안전성을 강화하는 새로운 보호 장치를 개발했습니다. 또한, 이러한 사건을 계기로 AI 업계 전반에 걸쳐 모델의 취약점(일명 '탈옥' 또는 'jailbreak')을 평가하고 관리하기 위한 일관된 기준과 프레임워크의 필요성이 더욱 절실해졌습니다.
### 사건 경과 및 안전 장치 업데이트
Anthropic은 2026년 6월 9일, Claude Fable 5와 Claude Mythos 5를 출시했습니다. Fable 5는 일반 사용을 위한 강력한 안전 장치를, Mythos 5는 방어적 사이버 보안 용도로 제한된 수의 신뢰할 수 있는 파트너에게만 제공되었습니다. 6월 12일, 미국 정부는 Amazon 연구원들이 Fable 5의 안전 장치를 우회하여 소프트웨어 취약점을 식별하고 이를 악용하는 방법을 시연한 보고서를 근거로 수출 통제를 명령했습니다. Anthropic은 정부 및 Amazon과 협력하여 보고서를 검토했으며, 테스트 결과 Claude Opus 4.8, GPT-5.5, Kimi K2.7 등 다른 모델들도 유사한 취약점을 식별할 수 있음을 확인했습니다. 또한, 취약점 악용 시연에 있어서는 Claude Haiku 4.5, Sonnet 4.6, Opus 4.6, Opus 4.7, Opus 4.8, GPT-5.4, GPT-5.5, Kimi K2.7 등 테스트된 모든 모델이 Fable 5와 동일한 시연을 생성할 수 있었습니다. 보고된 기법은 Mythos 수준의 고유한 사이버 역량을 노출시키지 않았으며, Fable 5의 안전 장치에 대한 경계선 사례에 해당했습니다. Anthropic은 즉시 정부와 협력하여 보고서에 기술된 동작을 차단하는 개선된 안전 분류기를 훈련시켰습니다. 이 새로운 분류기는 해당 기법을 99% 이상 차단하며, 요청이 차단될 경우 사용자에게 알리고 Opus 4.8로 요청을 전달합니다. 미국 상무부 산하 AI 표준 및 혁신 센터(CAISI)는 새로운 안전 장치를 테스트했으며, 이들이 매우 강력하다는 데 동의했습니다. 그러나 이 새로운 분류기는 일반적인 코딩 및 디버깅 작업 중에 정상적인 요청을 더 자주 플래그하는 부작용이 있습니다. Anthropic은 지속적으로 이를 개선하여 오용과 합법적인 요청을 더 잘 구분하고 오탐을 줄일 계획입니다.
### Anthropic의 사이버 보안 안전 장치 접근 방식
Claude Mythos 5는 다른 어떤 모델보다 효과적으로 소프트웨어 취약점을 찾고 악용할 수 있으며, 이는 숙련된 인간 보안 전문가에 필적하는 수준입니다. 이러한 강력한 사이버 보안 기능은 악의적인 행위자들에게 매력적인 대상이 될 수 있습니다. 반면, Claude Fable 5는 이러한 고유한 공격 능력을 제공하지 않도록 설계되었습니다. 이는 출시 당시 Anthropic이 적용한 가장 강력한 안전 장치 덕분입니다. 출시 전 한 달 동안, Anthropic은 여러 팀에서 인력을 재배치하여 이 문제에 투입되는 연구원 및 엔지니어 수를 두 배로 늘렸습니다. Fable 5는 다양한 안전 메커니즘을 통합했으며, 각 메커니즘은 단독으로는 완벽한 방어를 제공하지 못하지만 결합 시 모델의 오용을 매우 어렵게 만듭니다. 일부 방어는 모델이 위험한 요청에 응하는 것을 거부하도록 훈련하는 방식이며, 다른 것들은 오용 패턴을 사후 분석하는 방식입니다. 특히 중요한 안전 메커니즘 중 하나는 분류기입니다. 이는 상호 작용 중에 모델이 잠재적으로 유해한 사이버 보안 작업을 요청받거나 유해한 출력을 생성하는지 감지하는 소규모 자동화 AI 시스템입니다. 분류기가 이를 감지하면 모델의 응답을 차단합니다. 이러한 분류기의 궁극적인 목표는 모델이 고유하게 위험한 행동에 관여하는 것을 방지하는 것입니다. 모든 안전 메커니즘과 마찬가지로 분류기도 실수를 할 수 있습니다. 때로는 잠재적으로 유해한 콘텐츠를 놓치거나, 의도적으로 '탈옥'될 수 있습니다. 즉, 사용자가 비정상적인 방식으로 모델을 프롬프트하여 분류기를 속이고 시스템이 차단했어야 할 유해한 출력을 생성하도록 유도할 수 있습니다. 따라서 Anthropic은 안전 분류기가 의도적으로 정상적인 요청의 집합에 트리거되도록 설정했습니다. 이 '안전 마진' 접근 방식은 요청이 분류기를 피하려면 매우 명확하게 안전해야 함을 의미합니다. 사용자들은 이 안전 마진을 모델이 일부 합리적이고 무해한 요청에 응답하지 않는 것으로 경험합니다. Fable 5의 경우, 이 안전 마진을 이전 출시보다 훨씬 크게 설정하여 더 많은 정상적인 요청이 차단되도록 했습니다. Anthropic은 이러한 오탐이 사용자에게 좌절감을 줄 수 있음을 인지했지만, 모델의 다른 기능을 널리 사용할 수 있도록 하기 위해 이러한 절충을 감행했습니다. 안전 마진은 탈옥을 완화하는 데도 도움이 됩니다. 많은 탈옥은 특정 모델 동작을 해제하지만 그 이상은 아닙니다. 일부 경우, 가상의 사용자는 모델을 사소하게 탈옥하여 안전 마진 안으로 침입할 수 있지만, 핵심적인 유해한 행동까지는 도달하지 못합니다. Anthropic의 관점에서 현재까지 보고된 Fable 5의 탈옥은 이 사소한 범주에 속합니다. 더 심각한 탈옥은 더 유해한 행동을 유발합니다. 좁은 유해 탈옥은 특정 유해 행동을 유발할 수 있으며, 이는 일반적으로 공격자의 범위를 제한하기 때문에 심각도가 낮거나 중간 정도입니다. 가장 우려되는 범주는 보편적 탈옥으로, 광범위한 유해 행동을 해제합니다. Anthropic은 어떤 AI 모델도 탈옥에 완전히 강건하게 만드는 것은 불가능할 것으로 예상하며, 모델에 대한 일부 탈옥이 발견될 것이며 그 심각성은 다양할 것이라고 말합니다. 그들은 주요 탈옥을 악의적인 행위자가 사용하기 전에 자신들과 안전 파트너들이 가장 먼저 발견하고 수정하도록 보장하고자 합니다. 위에서 설명한 신중한 접근 방식은 대부분의 탈옥이 위험한 행동을 성공적으로 해제하지 못하게 합니다. Anthropic의 분류기는 성공적인 탈옥을 매우 비용이 많이 들고 노력이 많이 드는 작업으로 만들며, 탈옥이 성공하더라도 추가 방어 계층이 추가적인 완화를 제공합니다.
### 탈옥에 대한 합의된 산업 프레임워크
현재 AI 산업에는 AI 탈옥의 심각성을 객관적인 용어로 설명하는 데 대한 합의가 없습니다. 이는 새로운 탈옥 기법이 발견될 때마다 불확실성을 가중시킵니다. 개발자는 어떤 발견에 가장 시급하게 집중해야 할지에 대한 합의된 표준이 없고, 정부는 언제 행동해야 할지에 대한 합의된 표준이 없습니다. 앞으로 몇 달 안에 더 강력한 사이버 보안(및 기타) 기능을 갖춘 더 많은 모델이 훈련, 평가 및 출시됨에 따라 이 문제는 더욱 심각해질 것입니다. AI 탈옥을 평가하기 위한 공통 표준은 Anthropic과 다른 회사들이 새로운 모델을 안전하게 출시하고 사용자가 고급 기능을 최대한 활용할 수 있도록 도울 것입니다. 따라서 Anthropic은 Amazon, Microsoft, Google 및 기타 Glasswing 파트너와 협력하여 AI 탈옥의 심각성을 평가하고 AI 개발자가 이에 어떻게 대응해야 하는지에 대한 합의된 프레임워크를 초안하고 있습니다. 다른 산업 파트너 및 모델 제공업체도 이 노력에 동참하도록 초대합니다. 현재 제안은 다음과 같은 네 가지 기준에 따라 주어진 탈옥을 점수화하는 것입니다.
1. **기능 향상 (Capability gain)**: 탈옥이 사용자에게 기존 도구를 얼마나 넘어서는 기능을 제공하는가? 기존에 널리 사용 가능한 도구(다른, 약한 AI 모델 포함)가 동일한 기능을 달성할 수 있다면 점수가 낮고, 탈옥이 도메인 전문가조차도 크게 가속화할 수 있는 모델 기능을 해제한다면 점수가 높습니다.
2. **기능 향상의 폭 (Breadth of capability gain)**: 동일한 탈옥 기법이 얼마나 많은 별개의 공격 작업에 작동하는가? 탈옥이 좁은 대상만 허용하는 경우는 점수가 낮고, 동일한 탈옥 기법이 여러 다른 대상이나 기술에 작동하는 경우는 점수가 높습니다.
3. **무기화 용이성 (Ease of weaponization)**: 탈옥을 공격으로 전환하는 데 얼마나 많은 인간의 노력이 필요한가? 숙련된 프롬프트와 여러 번의 재시도가 필요한 경우 점수가 낮고, 단일 프롬프트 또는 첫 번째 또는 두 번째 시도에서 작동하는 경우 점수가 높습니다.
4. **발견 용이성 (Discoverability)**: 누군가가 해당 기법을 얼마나 쉽게 얻을 수 있는가? 전문 지식이 필요한 경우 점수가 낮고, 이미 널리 알려져 있고 온라인에서 사용 가능한 경우 점수가 높습니다.
이 심각성 프레임워크를 사용하여 새로 발견된 탈옥에 대한 대응을 조정할 계획입니다. 가장 심각한 등급의 탈옥(예: 치명적인 영향을 미치는 탈옥)의 경우, 심각성이 확인되면 즉시 예비 완화를 배포하기 시작할 것입니다. 또한, 보안 연구자들이 Fable 5에서 발견한 잠재적인 사이버 탈옥을 제출하여 검토할 수 있도록 새로운 HackerOne 프로그램을 시작합니다.
### 가치와 인사이트
이번 Claude Fable 5 재배포 사건은 AI 모델의 안전성 확보가 단순히 기술적인 문제를 넘어, 정부 규제, 산업 간 협력, 그리고 투명한 정보 공유가 필수적임을 보여줍니다. 특히, AI 모델의 잠재적 오용을 평가하고 관리하기 위한 산업 표준의 부재는 AI 기술 발전의 속도를 따라가지 못하는 규제 및 대응 체계의 한계를 드러냈습니다. Anthropic이 주도하는 산업 프레임워크 개발은 이러한 간극을 메우고, AI 기술의 책임감 있는 발전을 위한 중요한 발걸음이 될 것입니다. 이는 AI 개발자들이 모델의 위험성을 객관적으로 평가하고, 정부 및 사용자들과 효과적으로 소통하며, 궁극적으로는 더 안전한 AI 생태계를 구축하는 데 기여할 것입니다. 또한, 이러한 협력은 AI 기술의 국경 간 위험 관리에 대한 국제적인 논의의 초석이 될 수 있습니다.
### 향후 전망
AI 모델의 성능이 지속적으로 향상됨에 따라, Fable 5와 같은 모델의 '탈옥' 또는 오용 가능성은 계속해서 중요한 과제로 남을 것입니다. Anthropic과 같은 선도적인 AI 기업들은 새로운 탈옥 기법을 탐지하고 대응하기 위한 안전 장치를 지속적으로 업데이트해야 할 것입니다. 또한, Amazon, Microsoft, Google 등과의 협력을 통해 구축될 산업 프레임워크는 AI 보안 평가의 표준으로 자리 잡을 가능성이 높습니다. 이 프레임워크의 성공적인 안착은 AI 모델의 출시 속도와 안전성 사이의 균형을 맞추는 데 중요한 역할을 할 것입니다. 정부와의 협력 강화는 AI 기술의 책임감 있는 개발 및 배포를 위한 규제 프레임워크의 진화로 이어질 수 있으며, 이는 장기적으로 AI 산업의 지속 가능한 성장에 필수적입니다. 경쟁 환경에서는 이러한 안전 및 보안 조치가 모델의 채택률과 신뢰도에 직접적인 영향을 미칠 것이므로, 각 기업은 안전성과 성능 사이의 최적점을 찾기 위한 노력을 계속할 것입니다.
📝 원문 및 참고
- Source: Lobsters
- 토론(Lobsters): [lobste.rs](https://lobste.rs/s/thjzbz/redeploying_claude_fable_5)
- 원문: [링크 열기](https://www.anthropic.com/news/redeploying-fable-5)
---
출처: Lobsters · [원문 링크](https://www.anthropic.com/news/redeploying-fable-5)
신고 · 불법·유해·아동 안전(CSAE) 관련 콘텐츠

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.