[Hacker News 요약] Claude를 활용한 1997년 축구 매니저 게임 데이터 추출 및 분석
13
설명
이 글은 저자가 어릴 적 즐겨 하던 1997년작 'FIFA Soccer Manager 97' 게임의 데이터를 Anthropic의 AI 모델 Claude를 이용해 추출하고 분석한 과정을 상세히 다룹니다. 단순한 향수 자극을 넘어, AI가 오래된 독점 데이터 형식과 상호작용하며 숨겨진 게임 요소와 개발자 이스터 에그를 밝혀내는 흥미로운 여정을 보여줍니다. 이 프로젝트는 현대 AI 기술이 레거시 시스템의 데이터 아카이빙 및 분석에 어떻게 활용될 수 있는지 실질적인 사례를 제시합니다.
### 배경 설명
오래된 게임이나 소프트웨어의 데이터는 종종 독점적이고 문서화되지 않은 형식으로 저장되어 있어, 이를 추출하고 이해하는 것은 전통적으로 리버스 엔지니어링, 헥스 에디팅, 그리고 깊은 기술적 지식을 요구하는 고된 작업이었습니다. 이러한 레거시 데이터는 디지털 유산의 중요한 부분이지만, 접근성이 낮아 분석이나 재활용이 어려웠습니다.
최근 대규모 언어 모델(LLM)의 발전은 이러한 난제에 새로운 해결책을 제시하고 있습니다. Claude와 같은 LLM은 자연어 이해 및 패턴 인식 능력을 바탕으로, 주어진 맥락과 예시를 통해 불분명한 데이터 구조에서도 유의미한 정보를 추론하고 추출하는 데 도움을 줄 수 있습니다. 이는 특히 데이터 형식에 대한 사전 지식이 부족한 상황에서 초기 탐색 및 가설 설정 단계에서 강력한 도구가 됩니다.
이 프로젝트는 이러한 기술적 맥락에서 주목할 만합니다. LLM이 단순히 텍스트를 생성하거나 요약하는 것을 넘어, 복잡하고 비정형적인 바이너리 데이터 파일에서 특정 패턴을 식별하고, 사용자 질의에 맞춰 구조화된 정보를 추출해내는 능력을 입증했기 때문입니다. 이는 데이터 고고학(data archaeology) 분야에서 AI의 잠재력을 보여주며, 과거의 디지털 유물을 현대적 도구로 재해석하고 보존하는 새로운 가능성을 열어줍니다.
### Claude를 활용한 초기 데이터 추출 및 검증
저자는 Claude에게 게임 설치 디렉토리를 지정하고, 선수, 팀, 경기장 등 실제 축구 세계와 관련된 데이터에만 관심이 있다고 지시했습니다. Claude는 빠르게 'SM97.DAT' 파일에서 관련 데이터를 식별하고, 가장 큰 경기장이나 최고 평점 선수와 같은 간단한 질문에 답했습니다. 초기에는 HTML 요약 페이지와 CSV 파일을 생성했으나, 데이터 정렬 오류 등의 문제가 발생했습니다. 저자는 게임을 직접 실행하여 데이비드 시먼 선수의 스탯을 예시로 제공하며 Claude를 '보정'했고, 이를 통해 데이터 추출 정확도를 크게 향상시킬 수 있었습니다.
### 데이터 정제, 심층 분석 및 숨겨진 요소 발견
데이터 추출 범위를 잉글랜드 리그를 넘어 모든 선수와 클럽으로 확장한 후, 저자는 Claude를 통해 팀 이름 약어('Sheffield W'를 'Sheffield Wednesday'로)와 오타가 있는 경기장 이름('Bramall Lane Ground' 수정) 등을 정제했습니다. 이 과정에서 게임 내에서 사용되지 않는 다양한 데이터(선수들의 전체 이름, 감독 이름, 클럽 별명, 경기장 주소 등)가 존재함을 발견했습니다. 특히, 47세까지 활동한 골키퍼 피터 실튼이나 올림픽 십종경기 챔피언 데일리 톰슨 같은 이스터 에그를 찾아냈습니다. 또한, 일부 클럽이 경기장을 공유하는 개념과 선수 겸 감독 역할에 대한 데이터도 파악하여, 이를 바탕으로 최고 평점 선수, 연령대별 최고 선수, 선수 겸 감독, 경기장 수용 능력별 순위 등 흥미로운 통계 페이지를 구축했습니다.
### 개발자 이스터 에그와 기술적 심층 분석
분석 과정에서 'EA All Stars'라는 클럽에 소속된 고평점 선수들이 실제 게임 개발자들임을 밝혀냈습니다. 어시스턴트 프로듀서 마크 버건은 데이비드 시먼, 조지 웨아, 호마리우와 동급의 최고 선수로 자신을 설정했습니다. 또한, 저자는 GitHub에 상세히 설명된 데이터 추출 방법을 통해 데이비드 시먼 선수의 원시 바이트 데이터를 분석하여 국적, 포지션, 등번호, 스킬, 생년월일 등을 역산하는 과정을 보여주었습니다. 이 과정에서 16비트 날짜 오버플로우로 인해 2079년에 선수들이 은퇴하는 '2079 버그'의 원리도 밝혀냈습니다. Claude는 게임 내 풀 모션 비디오 컷신(TGQ 포맷)도 식별하고, FFmpeg를 통해 디코딩할 수 있음을 확인하여, 게임의 시각적 요소까지 접근하는 가능성을 제시했습니다.
### AI 기반 탐색에서 재현 가능한 오픈소스 프로젝트로
저자는 Claude를 통해 얻은 통찰력을 바탕으로, 다른 사람들도 AI 도구 없이 이 과정을 재현할 수 있도록 Python 코드를 개발하여 GitHub에 공개했습니다. 또한, 추출된 데이터를 기반으로 한 웹사이트(fsm.bennuttall.com)도 함께 게시했습니다. 이는 AI가 초기 탐색과 아이디어 구상에 강력한 도구로 활용될 수 있지만, 최종적으로는 안정적이고 재현 가능한 전통적인 소프트웨어 엔지니어링 방식으로 구현되어야 한다는 점을 시사합니다. 저자는 커뮤니티의 참여를 독려하며, 아직 발견되지 않은 다른 요소들을 함께 탐색할 것을 제안했습니다.
### 가치와 인사이트
이 프로젝트는 LLM이 단순한 텍스트 처리 도구를 넘어, 복잡하고 비정형적인 레거시 데이터의 '데이터 고고학'에 얼마나 강력한 조력자가 될 수 있는지 보여줍니다. 개발자 및 IT 전문가에게는 AI가 초기 데이터 탐색 및 패턴 인식에 드는 시간을 획기적으로 단축시키고, 기존에는 접근하기 어려웠던 정보에 대한 통찰력을 제공할 수 있음을 시사합니다. 특히, AI의 도움으로 얻은 지식을 바탕으로 재현 가능한 Python 스크립트를 개발하여 오픈소스화한 과정은, AI를 활용한 아이디어 구상과 전통적인 소프트웨어 엔지니어링의 결합이 어떻게 견고하고 유용한 결과물로 이어질 수 있는지를 보여주는 모범 사례입니다. 이는 데이터 과학자들에게도 AI가 제공하는 초기 가설과 통찰력을 인간의 도메인 지식으로 검증하고 정제하는 반복적인 과정의 중요성을 강조합니다.
### 기술·메타
- Python
- Claude (AI/LLM)
- GitHub (오픈소스)
- Web Development (HTML, CSS)
- Wine (Windows 95 게임 실행 환경)
- FFmpeg (비디오 디코딩)
### 향후 전망
향후 LLM은 더욱 발전하여 문서화되지 않은 바이너리 데이터 형식에 대한 이해도가 높아질 것으로 예상됩니다. 이는 수동적인 리버스 엔지니어링의 필요성을 줄이고, 데이터 고고학 분야의 진입 장벽을 낮출 수 있습니다. 또한, 멀티모달 LLM은 게임 화면의 시각적 단서와 데이터 파일을 결합하여 더욱 정교한 데이터 추출 및 분석을 가능하게 할 수도 있습니다. 이 프로젝트와 같은 오픈소스 활동은 레트로 게임 데이터 추출 및 보존 커뮤니티를 활성화시켜, 더 많은 게임의 숨겨진 비밀이 밝혀지고 디지털 유산이 보존되는 데 기여할 것입니다. 한편, AI가 저작권이 있는 게임 데이터를 쉽게 추출하고 재해석함에 따라, 지적 재산권 및 공정 사용에 대한 윤리적, 법적 논의가 더욱 활발해질 가능성도 있습니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48300890)
- 원문: [링크 열기](https://bennuttall.com/blog/2026/04/fsm97/)
---
출처: Hacker News · [원문 링크](https://bennuttall.com/blog/2026/04/fsm97/)

댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.