[Hacker News 요약] AI 탄수화물 계산, 27,000번 반복에도 일관성 없어 당뇨병 환자에게 치명적 위험 초래

12

설명

최근 발표된 한 연구는 AI 비전 모델이 음식 사진을 기반으로 탄수화물 함량을 추정하는 데 있어 심각한 일관성 부족과 부정확성을 보인다는 충격적인 결과를 내놓았습니다. 동일한 사진과 질문을 수만 번 반복했음에도 불구하고, AI 모델들은 매번 다른 답변을 내놓았으며, 그 오차 범위는 당뇨병 환자에게 치명적인 저혈당을 유발할 수 있는 수준이었습니다. 이 연구는 AI 기반 헬스케어 애플리케이션의 신뢰성에 대한 근본적인 질문을 던집니다. ### 배경 설명 당뇨병 환자에게 탄수화물 계산은 혈당 관리에 필수적인 요소입니다. 식사 시 섭취하는 탄수화물 양에 따라 적절한 인슐린 용량을 결정해야 하므로, 정확하고 일관된 정보는 생명과 직결됩니다. 최근 몇 년간 인공지능, 특히 대규모 언어 모델(LLM) 기반의 비전 AI 기술이 발전하면서, 음식 사진만으로 탄수화물 함량을 자동으로 계산해주는 앱들이 등장하며 당뇨병 환자들의 편의를 높일 것으로 기대를 모았습니다. 그러나 이러한 AI 모델들은 본질적으로 확률적 추론에 기반하기 때문에, 동일한 입력에 대해서도 미세한 변동성으로 인해 다른 출력을 내놓을 수 있습니다. 의료 분야에서는 이러한 비결정론적 특성이 심각한 문제를 야기할 수 있으며, 특히 인슐린 투여량 결정과 같은 민감한 영역에서는 더욱 엄격한 검증이 요구됩니다. 이번 연구는 이러한 AI의 내재적 특성이 실제 의료 환경에서 어떤 위험으로 이어질 수 있는지를 정량적으로 보여주며, AI 헬스케어 솔루션 개발 및 활용에 있어 중요한 경고음을 울리고 있습니다. ### AI 모델의 치명적인 불일치성 연구진은 13가지 실제 음식 사진을 OpenAI GPT-5.4, Anthropic Claude Sonnet 4.6, Google Gemini 2.5 Pro, Google Gemini 3.1 Pro Preview 등 4가지 주요 AI 모델에 각각 500회 이상, 총 26,904회 질의했습니다. 모든 질의는 동일한 프롬프트와 최저 무작위성(randomness) 설정으로 진행되었음에도 불구하고, 모든 모델은 동일한 사진에 대해 매번 다른 탄수화물 추정치를 반환했습니다. 특히 Gemini 2.5 Pro는 파에야 사진에 대해 55g에서 484g까지 추정치를 내놓았는데, 이는 최대 42.9단위의 인슐린 오차를 유발할 수 있는 수준으로, 잠재적으로 치명적인 결과를 초래할 수 있습니다. ### '정확히 틀린' 문제와 음식 오인식 AI 모델들은 단순히 불일치할 뿐만 아니라, '정확히 틀린(precisely wrong)' 문제도 드러냈습니다. 예를 들어, 실제 탄수화물 함량이 40g인 치즈 샌드위치에 대해 Claude와 Gemini 모델들은 일관되게 28g으로 추정하여 12g의 오차를 보였습니다. 이는 일관성은 높지만 정확성은 낮은 위험한 상황입니다. 또한, AI 모델들은 음식 오인식 문제도 심각했습니다. Bakewell tart를 Linzer torte로, Crema catalana를 Creme brulee로 잘못 인식하거나, 심지어 치즈 샌드위치에 존재하지 않는 '델리 미트'를 환각하여 탄수화물 추정치를 부풀리는 경우도 있었습니다. ### 임상적으로 위험한 인슐린 투여 오류 가능성 가장 우려되는 점은 이러한 AI의 부정확성과 불일치성이 실제 인슐린 투여량에 심각한 오류를 가져올 수 있다는 것입니다. 강한 참조값을 가진 음식에 대한 분석 결과, Claude는 모든 질의가 안전하거나 보통 수준의 오차(2단위 미만)를 보였지만, GPT-5.4는 37%, Gemini 3.1 Pro는 12%, Gemini 2.5 Pro는 12%의 질의가 임상적으로 심각하거나(2-5단위) 치명적인 저혈당 위험(5단위 초과)을 유발할 수 있는 인슐린 오차를 발생시켰습니다. 이는 AI가 제공하는 단일 수치를 맹신할 경우, 환자가 생명을 위협하는 상황에 처할 수 있음을 의미합니다. ### 무의미한 AI '자신감' 점수 연구는 AI 모델들이 제공하는 '자신감(confidence) 점수'가 실제 정확도와 거의 상관관계가 없거나 오히려 역상관 관계를 보인다는 점을 밝혀냈습니다. Claude의 경우, 자신감 점수가 높을 때 오히려 추정치의 정확도가 떨어지는 현상까지 관찰되었습니다. 이는 AI가 '매우 확신한다'고 말하더라도 그 결과가 정확하다는 보장이 없으며, 사용자에게 잘못된 안도감을 주어 위험을 가중시킬 수 있음을 시사합니다. 모델 자체의 자신감 점수는 안전 메커니즘으로 활용될 수 없으며, 유일한 신뢰할 수 있는 불확실성 신호는 여러 번 질의하여 결과의 분포를 관찰하는 것뿐입니다. ### 가치와 인사이트 이번 연구는 AI 기반 헬스케어 애플리케이션, 특히 당뇨병 관리 분야에서 AI 모델의 현재 한계를 명확히 보여줍니다. 개발자들은 AI 모델의 내재된 불확실성과 비일관성을 인지하고, 단일 쿼리 결과에 의존하는 시스템 설계는 지양해야 합니다. 대신, 여러 번 질의하여 결과의 분포를 확인하고, 사용자에게 불확실성을 명확히 고지하며, 잠재적 위험에 대한 경고 메커니즘을 반드시 포함해야 합니다. 또한, AI가 인식한 음식 종류를 사용자에게 확인시키는 기능은 필수적입니다. 사용자 입장에서는 AI가 제공하는 탄수화물 계산 결과를 맹신하지 말고, 항상 교차 확인하고 의심하는 태도를 가져야 합니다. AI는 강력한 도구이지만, 의료 분야에서는 인간의 감독과 판단이 여전히 결정적인 역할을 해야 함을 시사합니다. ### 기술·메타 - OpenAI GPT-5.4 - Anthropic Claude Sonnet 4.6 - Google Gemini 2.5 Pro - Google Gemini 3.1 Pro Preview - Large Language Models (LLMs) - Vision APIs ### 향후 전망 향후 AI 기반 탄수화물 계산 기술은 모델의 견고성(robustness)과 일관성(consistency)을 획기적으로 개선하는 방향으로 발전해야 할 것입니다. 단순히 평균 정확도를 높이는 것을 넘어, 극단적인 오차(outlier)를 줄이고 동일 입력에 대한 재현성을 확보하는 것이 핵심 과제입니다. 이를 위해 모델 아키텍처 개선, 학습 데이터의 다양성 및 품질 향상, 그리고 불확실성을 보다 정확하게 정량화하고 사용자에게 전달하는 방법론 연구가 활발히 진행될 것으로 예상됩니다. 또한, 의료 분야 AI에 대한 규제 기관의 역할이 더욱 중요해질 것입니다. 단순히 기술적 성능뿐 아니라 임상적 안전성과 신뢰성을 보장하기 위한 엄격한 가이드라인과 인증 절차가 마련될 것입니다. 오픈소스 커뮤니티에서는 이러한 모델의 한계를 보완하기 위한 다중 쿼리 시스템이나 인간 개입(Human-in-the-Loop)을 통한 검증 시스템 개발에 기여할 수 있습니다. 궁극적으로 AI는 인간의 판단을 보조하는 도구로서, 그 한계를 명확히 인지하고 안전 장치를 마련하는 것이 중요합니다. 📝 원문 및 참고 - Source: Hacker News - 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=47947490) - 원문: [링크 열기](https://www.diabettech.com/i-asked-ai-to-count-my-carbs-27000-times-it-couldnt-give-me-the-same-answer-twice/) --- 출처: Hacker News · [원문 링크](https://www.diabettech.com/i-asked-ai-to-count-my-carbs-27000-times-it-couldnt-give-me-the-same-answer-twice/)
사이트 방문하기Visit Service

댓글 0

아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.