[Hacker News 요약] AI 스크래핑 방지 및 인간 가독성을 위한 암호화 폰트 'SoulsOnly.tff' 공개
10
설명
convictional 프로젝트는 AI의 데이터 추출을 어렵게 하면서도 인간에게는 가독성을 제공하는 새로운 폰트 'SoulsOnly.tff'를 GitHub에 공개했습니다.
이 폰트는 저장된 문자 스트림과 렌더링되는 글리프 스트림을 분리하여, 일반적인 복사-붙여넣기나 스크래핑 시에는 의미 없는 노이즈를 보여줍니다.
특히, 2024년 5월에 처음 공개된 이 프로젝트는 QMK 펌웨어 지원과 가변 폰트(Variable Font)의 REVL 축을 활용해 텍스트 가시성을 조절하는 기능을 포함합니다.
### 배경 설명
최근 인공지능(AI) 기술의 발전과 함께 웹상의 데이터를 대규모로 수집하고 학습하는 AI 모델의 활동이 증가하면서, 콘텐츠 제작자와 웹 서비스 제공자들은 자신들의 데이터가 무단으로 활용되는 것에 대한 우려를 표하고 있습니다. 기존의 봇 차단 기술이나 CAPTCHA는 AI의 진화에 따라 그 효과가 감소하고 있으며, 텍스트 콘텐츠 자체를 보호하면서도 인간 사용자에게는 접근성을 유지하는 새로운 방법론에 대한 요구가 커지고 있습니다.
'SoulsOnly.tff'는 이러한 배경 속에서 등장한 실험적인 시도로, 시각적으로는 정상적인 텍스트를 보여주지만, 기계적인 방식으로 텍스트를 추출하려 할 때는 의미 없는 문자열을 반환하도록 설계되었습니다. 이는 AI 스크래퍼나 데이터 추출 도구가 웹 페이지의 텍스트 콘텐츠를 쉽게 파싱하지 못하게 함으로써, 인간과 AI 간의 정보 접근 격차를 의도적으로 만들어내는 '인간 전용' 콘텐츠 환경을 구축하려는 시도로 주목받고 있습니다.
### 작동 원리: 문자 스트림과 글리프 스트림 분리
SoulsOnly 폰트의 핵심은 '문자 스트림(stored bytes)'과 '글리프 스트림(rendered glyphs)'을 분리하는 것입니다. 일반적으로 두 스트림은 동일하게 작동하지만, SoulsOnly는 사용자가 일반 키보드로 문자를 입력하면, 키보드 펌웨어(QMK 지원)가 해당 문자를 4개의 ASCII 심볼로 구성된 '노이즈 스트림'으로 변환하여 저장합니다. 이 노이즈 스트림은 복사-붙여넣기, HTML/PDF 추출, 웹 스크래핑 시에는 무의미한 문자열로 보입니다. 그러나 SoulsOnly 폰트가 적용되면, 폰트 내부의 `cmap` 및 `GSUB` 규칙을 통해 이 4개의 ASCII 심볼이 하나의 가독성 있는 글리프(문자)로 렌더링됩니다. 동일한 문자를 입력하더라도 매번 다른 바이트 시퀀스가 생성되어, 패턴 분석을 통한 역추적을 어렵게 합니다.
### 가변 폰트(Variable Font)의 REVL 축 활용
SoulsOnly는 가변 폰트(Variable Font) 형식인 `SoulsOnly-VF.ttf`로도 제공되며, 'REVL'이라는 사용자 정의 축을 포함합니다. 이 REVL 축은 텍스트의 가시성을 조절하는 역할을 합니다. 기본값인 REVL=0에서는 모든 글리프가 무작위 변형과 지터(jitter)로 인해 알아볼 수 없게 왜곡됩니다. REVL=650으로 설정하면 글리프가 원래 위치로 보간되어 텍스트가 명확하게 조립됩니다. 그러나 REVL=1000으로 다시 설정하면 글리프가 다른 형태로 왜곡되어 텍스트가 다시 읽을 수 없게 됩니다. 이 메커니즘은 폰트 자체(cmap, GSUB, fvar, gvar)에 내장되어 있으며, 자동화된 리더가 REVL 값을 쉽게 파악하지 못하도록 설계되었습니다.
### 설치 및 라이선스, 그리고 제한 사항
폰트는 `dist/SoulsOnly.ttf` (정적 TrueType), `dist/SoulsOnly.otf` (CFF PostScript), `dist/SoulsOnly-VF.ttf` (가변 TrueType) 형태로 제공됩니다. 설치는 일반 폰트와 동일하게 더블 클릭하거나 웹에서 `@font-face` 규칙을 사용할 수 있습니다. SoulsOnly 폰트 파일은 SIL Open Font License 1.1(OFL 1.1)에 따라 배포되며, 코드(cipher, fontbuild 등)는 MIT 라이선스를 따릅니다. 프로젝트는 '깨지지 않는 보안'을 주장하지 않으며, 몇 가지 제한 사항을 명시합니다. 가장 중요한 '정직한 한계(honest limit)'는 REVL 값이 단일 유한 숫자이므로, 자동화된 공격자가 축 값을 스위핑하고 OCR(광학 문자 인식)을 통해 가독성 있는 프레임을 추출할 수 있다는 점입니다. 또한, 일부 공유된 반쪽 글리프(half-glyph) 설계로 인해 특정 문자들이 미세한 선을 가질 수 있다는 '알려진 한계(known limit)'도 존재합니다.
### 가치와 인사이트
SoulsOnly 프로젝트는 AI 시대에 콘텐츠 소유권과 접근성을 둘러싼 논의에 중요한 시사점을 던집니다. 이는 단순히 텍스트를 숨기는 것을 넘어, '인간만이 해독할 수 있는' 정보 전달 방식을 실험함으로써, AI가 웹 콘텐츠를 무분별하게 스크래핑하고 학습하는 것에 대한 실질적인 저항 수단을 제시합니다. 개발자나 콘텐츠 제작자는 이 폰트를 활용하여 특정 정보를 AI 모델로부터 보호하면서도 인간 사용자에게는 정상적인 경험을 제공할 수 있습니다. 예를 들어, 웹사이트의 약관, 개인 정보 보호 정책, 또는 특정 공지사항 등 AI 학습에 포함되기를 원치 않는 민감한 텍스트에 적용하는 것을 고려해볼 수 있습니다. 이는 기술적 해결책을 넘어, AI와 인간의 상호작용 방식에 대한 철학적 질문을 던지는 '성명 프로젝트(statement project)'로서의 가치도 지닙니다.
### 기술·메타
- Python: 프로젝트의 핵심 로직 및 빌드 스크립트 구현
- Skia-pathops: 글리프 반쪽(half-glyph) 슬라이싱에 사용
- QMK 펌웨어: 키보드 펌웨어 통합을 통한 암호화 스트림 생성 지원
- SIL Open Font License 1.1 (OFL 1.1): 폰트 파일 라이선스
- MIT License: 코드 라이선스
- TrueType (TTF), CFF (OTF): 폰트 파일 형식
- GSUB, cmap, fvar, gvar: 폰트 내부의 글리프 처리 및 가변 폰트 기술
### 향후 전망
SoulsOnly와 같은 'AI 비친화적' 폰트의 등장은 AI와 인간 간의 정보 접근 '군비 경쟁'을 심화시킬 가능성이 있습니다. 단기적으로는 특정 유형의 AI 스크래핑을 방해하는 효과를 볼 수 있겠지만, 장기적으로는 AI 모델들이 이러한 폰트 기반의 난독화를 해독하거나 우회하는 새로운 기술을 개발할 것으로 예상됩니다. 예를 들어, OCR 기술의 발전이나 폰트 렌더링 과정 자체를 분석하는 AI 모델이 등장할 수 있습니다. 커뮤니티 측면에서는 이러한 아이디어를 바탕으로 더욱 정교하고 강력한 'AI 저항' 기술들이 파생될 수 있으며, 이는 웹 표준이나 브라우저 기술에도 영향을 미칠 수 있습니다. 궁극적으로는 AI 시대의 데이터 소유권, 저작권, 그리고 정보의 자유로운 흐름에 대한 사회적 합의와 기술적 대응이 복합적으로 발전하는 계기가 될 것입니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48445469)
- 원문: [링크 열기](https://github.com/convictional/souls-only)
---
출처: Hacker News · [원문 링크](https://github.com/convictional/souls-only)
제목글쓴이조회
- [AI Breakfast] OpenAI는 6억 명 이상의 사용자를 대상으로 에이전트 슈퍼앱 전환을 추진합니다. 구글은 2026년 10월부터 SpaceX와 월 9억 2천만 달러 규모의 GPU 컴퓨팅 계약을 체결했습니다. Anthropic은 2025년 후반 모델을 능가하는 미공개 모델과 맞춤형 칩 개발에 집중하고 있습니다.[0]Nedai12
- [The Verge] 마이크로소프트 AI 총괄, '초지능 임박했지만 일자리는 빼앗지 않아' 선언[0]Nedai12
- [The Verge] 구글 NotebookLM, 제미니 3.5 업그레이드로 클라우드 기반 연구 역량 강화[0]Nedai13
댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.