[Hacker News 요약] Anthropic Claude Mythos의 보안 역량 과장 논란: 신뢰 붕괴 위기

17

설명

최근 Anthropic이 자사의 AI 모델 Claude Mythos Preview가 '전례 없는' 사이버 보안 역량을 가졌으며, 너무 위험하여 일반에 공개할 수 없다고 주장했습니다. 하지만 이 글은 Anthropic의 주장을 담은 244페이지 분량의 시스템 카드를 면밀히 분석하며, 해당 주장이 실제 증거와는 거리가 멀고 과장된 마케팅에 불과하다고 강력히 비판합니다. 저자는 Mythos의 실제 성능이 기존 기술과 크게 다르지 않으며, 오히려 정보 통제와 '규제 포획'을 위한 전략일 수 있다고 지적합니다. ### 배경 설명 인공지능(AI) 기술이 발전하면서, AI가 사이버 보안 분야에서 취약점을 발견하고 악용하는 능력에 대한 기대와 우려가 동시에 커지고 있습니다. 특히 대규모 언어 모델(LLM)이 코드 분석 및 취약점 탐지에 활용될 가능성이 제기되면서, 'AI 해커'의 등장은 산업계와 정책 입안자들의 주요 관심사가 되었습니다. 이러한 맥락에서 Anthropic은 자사의 최신 모델인 Claude Mythos Preview가 '수천 개의 제로데이 취약점'을 발견하고 '엔드 투 엔드 공격'을 수행할 수 있다고 주장하며, 이를 '문명적 위협'으로 규정했습니다. 동시에 주요 기업들과 'Project Glasswing'이라는 컨소시엄을 구성하여 Mythos에 대한 제한적 접근을 허용하고, 1억 달러 규모의 방어 이니셔티브를 발표했습니다. 이는 AI 보안 역량에 대한 대중의 인식을 형성하고, 관련 정책 및 시장 흐름에 큰 영향을 미칠 수 있는 중요한 움직임으로 주목받았습니다. ### 1. 주장과 실제 문서의 심각한 괴리 Anthropic은 '수천 개의 제로데이 취약점'을 발견했다고 대대적으로 홍보했지만, 244페이지 분량의 시스템 카드에서 'thousands'라는 단어는 취약점과 관련하여 단 한 번도 사용되지 않았습니다. 사이버 보안 섹션(3장, 47-53페이지)에는 제로데이 취약점의 수, CVE 목록, CVSS 분포, 심각도 분류, 공개 타임라인 등 기본적인 보안 지표가 전혀 포함되어 있지 않습니다. 이는 기술적 근거 없이 마케팅 문구만을 앞세운다는 비판을 받습니다. ### 2. Firefox 147 평가의 허점과 성능 과장 Mythos의 핵심 시연인 Firefox 취약점 발견 테스트는 실제 Firefox 환경이 아닌, 브라우저 샌드박스 및 방어 메커니즘이 제거된 제한된 환경에서 진행되었습니다. 더 나아가, 해당 버그는 Mythos가 아닌 Anthropic의 이전 모델인 Claude Opus 4.6이 이미 발견했으며, 테스트가 공식화되기 전에 Mozilla에 의해 이미 패치된 상태였습니다. 특히, 가장 취약한 두 개의 버그를 제거하자 Mythos의 전체 코드 실행(FCE) 성공률이 72.4%에서 4.4%로 급락했습니다. 이는 Mythos의 일반적인 익스플로잇 능력이 미미하며, 이전 모델과 유의미한 차이가 없음을 시사합니다. ### 3. 독립적 검증의 부재 및 외부 반박 Anthropic의 주장은 독립적인 검증을 거치지 않았습니다. 오히려 AI 보안 스타트업 AISLE은 Anthropic이 시연한 FreeBSD NFS RCE 버그를 3.6B 파라미터의 오픈소스 모델로 단 11센트의 비용으로 재현하는 데 성공했습니다. 이는 Mythos의 '전례 없는' 역량이 오픈소스 생태계에서도 충분히 접근 가능하다는 것을 보여줍니다. 또한, IT 매체 Tom's Hardware는 초기 보도를 철회하며 '수천 개의 제로데이' 주장이 실제로는 약 198건의 수동 검토에 기반한 것이라고 폭로했습니다. ### 4. Glasswing 컨소시엄의 '규제 포획' 논란 Project Glasswing은 Anthropic의 자체 문서들이 서로를 인용하는 순환 구조를 가지고 있으며, 참여 파트너사들(Apple, Google, Microsoft 등)은 Mythos의 구체적인 발견 사항을 확인해주지 않고 있습니다. 1억 달러 규모의 '방어 이니셔티브'는 400만 달러의 현금 기부와 1억 달러 상당의 Mythos 사용 크레딧으로 구성되어, 사실상 Anthropic이 파트너들에게 제품 사용을 유도하는 '역(逆) 세일즈 피치'에 가깝다는 비판을 받습니다. 저자는 이를 '규제 포획'으로 해석하며, 사기업이 민주적 통제 없이 특정 기술의 위험성을 분류하고 접근을 통제하는 선례를 만들고 있다고 경고합니다. ### 5. 벤치마크 평가의 한계와 FUD 전략 Anthropic이 제시한 Cybench 및 CyberGym 벤치마크 결과 또한 비판의 대상이 됩니다. Cybench는 이미 '포화 상태'로 모델 간 차별성을 보여주지 못하며, CyberGym은 '사전 발견된 취약점 재현' 능력을 측정하는 것으로 자율적인 제로데이 발견과는 거리가 멉니다. 사이버 레인지 테스트에서는 Mythos가 '보안이 취약한 소규모 네트워크'에서는 성공했지만, '적절히 패치되고 구성된 샌드박스'에서는 실패했다고 스스로 인정했습니다. 저자는 이러한 과장된 주장이 과거 '414s'나 '미켈란젤로 바이러스' 사태처럼 공포, 불확실성, 의심(FUD)을 조장하여 정책적, 시장적 이득을 취하려는 전략이라고 분석합니다. ### 가치와 인사이트 이 기사는 AI 보안 기술의 도입과 평가에 있어 비판적 사고의 중요성을 강조합니다. IT 및 보안 전문가들은 AI 모델의 역량에 대한 과장된 마케팅에 현혹되지 않고, 제시된 증거의 신뢰성과 투명성을 철저히 검증해야 합니다. Anthropic의 사례는 AI가 발견하는 취약점의 '속도'나 '양'보다는, 실제 시스템에 대한 '영향', '패치 속도', '방어 역량 강화' 등 실질적인 보안 지표에 집중해야 함을 시사합니다. 또한, 사기업이 '위험성'을 명분으로 특정 기술에 대한 접근을 통제하고 독점적인 정보 공개 체계를 구축하려는 시도에 대해 경계하고, 민주적 통제와 투명성을 확보하기 위한 논의가 필요하다는 중요한 시사점을 제공합니다. ### 기술·메타 - Fuzzer (AFL, libFuzzer, OSS-Fuzz, honggfuzz) - 코드 분석 도구 (Semgrep, CodeQL) - 오픈소스 LLM (GPT-OSS-20b, Kimi K2) ### 향후 전망 Anthropic의 Mythos에 대한 이러한 비판은 AI 보안 시장과 규제 환경에 상당한 영향을 미칠 것으로 예상됩니다. 단기적으로 Anthropic은 자사의 주장에 대한 추가적인 증거를 제시하거나, 비판을 수용하여 투명성을 강화하는 방향으로 나아갈 수 있습니다. 경쟁사들은 Anthropic의 과장된 마케팅 전략을 반면교사 삼아 보다 현실적이고 검증 가능한 AI 보안 솔루션을 제시할 가능성이 있습니다. 장기적으로는 AI 보안 연구 커뮤니티 내에서 모델의 실제 성능을 평가하고 검증하는 독립적인 표준 및 방법론 개발이 가속화될 것입니다. 또한, 정부 및 국제기구는 AI의 잠재적 위험성에 대한 사기업의 주장을 맹목적으로 수용하기보다, 독립적인 전문가 집단을 통해 기술적 사실관계를 검증하고, '규제 포획'을 방지하기 위한 제도적 장치를 마련해야 할 것입니다. 오픈소스 AI 모델의 발전은 특정 기업의 독점을 견제하고 AI 보안 기술의 민주화를 촉진하는 중요한 변수가 될 것입니다. 📝 원문 및 참고 - Source: Hacker News - 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=47872200) - 원문: [링크 열기](https://www.flyingpenguin.com/the-boy-that-cried-mythos-verification-is-collapsing-trust-in-anthropic/) --- 출처: Hacker News · [원문 링크](https://www.flyingpenguin.com/the-boy-that-cried-mythos-verification-is-collapsing-trust-in-anthropic/)
사이트 방문하기Visit Service

댓글 0

아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.