[Hacker News 요약] AI 챗봇, 개인의 실제 전화번호 노출 심각성 및 해결 과제
52
설명
최근 AI 챗봇이 사용자들의 실제 전화번호를 노출하는 사례가 급증하며 개인 정보 보호에 대한 우려가 커지고 있습니다. 구글 제미니, 챗GPT 등 주요 챗봇에서 이러한 문제가 발생하고 있으며, 이는 훈련 데이터 내 PII(개인 식별 정보)의 포함과 모델의 정보 재현 능력 때문으로 분석됩니다. 피해자들은 스팸 전화와 잠재적 괴롭힘에 시달리고 있지만, 현재로서는 노출된 정보를 제거하거나 예방할 효과적인 방법이 부족한 실정입니다. 이 문제는 AI 기술의 발전과 함께 더욱 심화될 수 있는 중대한 개인 정보 침해 이슈로 부상하고 있습니다.
### 배경 설명
대규모 언어 모델(LLM) 기반의 AI 챗봇은 인터넷에서 수집된 방대한 양의 데이터를 학습하여 구동됩니다. 이 과정에서 개인 식별 정보(PII)가 포함된 데이터가 필연적으로 훈련 데이터셋에 유입되며, 모델은 학습된 정보를 그대로 재현하는 '암기(memorization)' 특성을 보일 수 있습니다. 특히 최근에는 고품질 공개 데이터의 고갈로 인해 AI 기업들이 데이터 브로커나 사람 검색 웹사이트 등 다양한 출처에서 훈련 데이터를 확보하려는 경향이 강해지고 있어 PII 노출 위험이 더욱 커지고 있습니다.
이러한 현상은 단순히 개인의 불편을 넘어, AI 기술에 대한 대중의 신뢰를 저해하고 GDPR, CCPA와 같은 강력한 개인 정보 보호 규제 준수에 심각한 문제를 야기합니다. 개발자 및 IT 전문가 관점에서는 AI 모델의 투명성, 설명 가능성, 그리고 윤리적 데이터 활용 원칙을 재고하게 만드는 중요한 이슈입니다. AI 서비스 제공자들은 사용자에게 유용한 정보를 제공하는 동시에 개인의 프라이버시를 보호해야 하는 딜레마에 직면해 있습니다.
### AI 챗봇에 의한 실제 전화번호 노출 사례 증가
최근 한 레딧 사용자는 구글 제미니 챗봇이 자신의 전화번호를 노출하여 낯선 사람들로부터 변호사, 제품 디자이너, 자물쇠 수리공을 찾는 전화가 쇄도했다고 보고했습니다. 이스라엘의 한 소프트웨어 개발자는 제미니가 잘못된 고객 서비스 안내에 그의 개인 번호를 포함시켜 WhatsApp 메시지를 받았으며, 워싱턴 대학교의 한 박사 과정 학생은 제미니를 통해 동료의 개인 휴대폰 번호를 얻어냈습니다. 개인 정보 삭제 서비스인 DeleteMe에 따르면, 지난 7개월간 AI 관련 개인 정보 노출 문의가 400% 증가했으며, 이 중 55%는 ChatGPT, 20%는 Gemini, 15%는 Claude를 언급했습니다.
### PII 노출의 원인과 가드레일의 한계
AI 챗봇의 개인 정보 노출은 주로 웹에서 스크랩된 방대한 훈련 데이터셋에 PII가 포함되어 있기 때문입니다. 모델은 이러한 데이터를 암기하고 재현하는 경향이 있으며, 특히 고품질 데이터 고갈로 인해 데이터 브로커 등 다양한 출처의 데이터가 훈련에 사용되면서 위험이 커지고 있습니다. AI 기업들은 PII를 식별하고 노출을 막기 위한 콘텐츠 필터나 가드레일을 구축하고 있지만, 워싱턴대 연구 사례처럼 ChatGPT가 '조사 스타일' 접근을 제안하며 교수님의 집 주소와 배우자 이름까지 찾아내는 등 이러한 안전장치들이 완벽하게 작동하지 않는 경우가 많습니다.
### 현행 개인 정보 보호 조치의 한계
현재로서는 AI 모델 훈련 데이터셋에 특정 개인 정보가 포함되어 있는지 확인하거나 이를 제거하도록 강제하는 쉬운 방법이 없습니다. 스탠포드 대학교의 제니퍼 킹 연구원은 구글이 훈련 데이터 내 개인 정보를 요약하고 삭제할 인프라를 갖추고 있는지 의문을 제기합니다. GDPR이나 CCPA와 같은 기존 개인 정보 보호 법규는 '공개적으로 이용 가능한' 정보에 대해서는 적용 범위가 제한적이며, AI 기업들은 PII 제거 요청에 대해 법적 근거를 들어 거부할 수도 있습니다. Hugging Face의 도구는 오픈소스 데이터셋을 검색할 수 있지만, 폐쇄형 상용 모델에는 적용되지 않는 한계가 있습니다.
### 개인 정보 보호를 위한 현재의 최선책과 과제
DeleteMe의 CEO 롭 샤벨은 개인 데이터를 보호하는 가장 좋은 방법은 '업스트림에서 시작하여, 다음 스크랩이 이루어지기 전에 공개 웹에서 개인 데이터를 제거하는 것'이라고 조언합니다. 캘리포니아주는 주민들이 데이터 브로커에게 정보 삭제를 요청할 수 있는 웹 포털을 제공하지만, 이는 이미 AI 모델 훈련에 사용된 데이터에는 적용되지 않을 수 있습니다. 구글과 OpenAI는 개인 정보 삭제 요청 절차를 제공하지만, 응답이 지연되거나 제한적일 수 있습니다. 결국, 개인은 스스로 온라인에 노출된 정보를 최소화하는 것이 현재로서는 가장 현실적인 방어책입니다.
### 가치와 인사이트
이 문제는 AI 시스템 설계 및 개발 단계에서 개인 정보 보호를 최우선으로 고려해야 함을 강력히 시사합니다. 개발자들은 훈련 데이터 수집 및 전처리 과정에서 PII를 식별하고 제거하는 더욱 정교한 기술을 도입해야 하며, 모델이 학습된 정보를 무분별하게 재현하지 않도록 하는 메커니즘을 강화해야 합니다. 또한, 챗봇의 '가드레일'이 우회될 수 있는 취약점을 지속적으로 탐색하고 보완하는 노력이 필수적입니다. 기업 입장에서는 AI 서비스의 신뢰도를 유지하고 법적 리스크를 최소화하기 위해 사용자 데이터 처리 정책을 투명하게 공개하고, PII 노출 시 신속하고 책임감 있는 대응 체계를 마련해야 합니다. 이는 단순히 기술적인 문제를 넘어, AI 윤리와 사회적 책임이라는 광범위한 실무적 영향을 미칩니다.
### 기술·메타
- LLM (Large Language Models)
- PII (Personally Identifiable Information)
- Generative AI
- Training Data
- Data Brokers
- Privacy Guardrails
- GDPR (General Data Protection Regulation)
- CCPA (California Consumer Privacy Act)
### 향후 전망
향후 AI 챗봇의 PII 노출 문제는 더욱 심화될 것으로 예상되며, 이에 대한 규제 당국의 압력은 더욱 커질 것입니다. 기존의 개인 정보 보호 법규들이 AI 훈련 데이터의 특성을 충분히 반영하지 못하고 있어, 새로운 법적 프레임워크나 기존 법규의 확장이 논의될 가능성이 높습니다. AI 기업들은 경쟁 우위를 확보하고 사용자 신뢰를 얻기 위해 차등 프라이버시(Differential Privacy)나 연합 학습(Federated Learning)과 같은 고급 개인 정보 보호 기술에 대한 투자를 확대하고, 훈련 데이터에서 PII를 효과적으로 식별하고 제거하는 솔루션 개발에 집중할 것입니다. 또한, 사용자 커뮤니티에서는 AI 서비스의 투명성과 개인 정보 통제권에 대한 요구가 더욱 강력해질 것이며, 이는 AI 제품 개발 로드맵에 중요한 변수로 작용할 것입니다. 장기적으로는 AI 모델의 '잊을 권리(Right to be forgotten)'를 실현하기 위한 기술적, 법적 논의가 활발해질 것으로 전망됩니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48171513)
- 원문: [링크 열기](https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers/)
---
출처: Hacker News · [원문 링크](https://www.technologyreview.com/2026/05/13/1137203/ai-chatbots-are-giving-out-peoples-real-phone-numbers/)


댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.