[Hacker News 요약] LLM이 숫자를 사용하지 않고 수학을 수행하는 내부 메커니즘과 그 한계
27
설명
대규모 언어 모델(LLM)이 복잡한 수학 연산을 수행하는 방식은 오랫동안 미스터리였습니다. 이 글은 LLM이 인간처럼 손가락이나 종이 없이 오직 행렬 연산만으로 어떻게 산술을 처리하는지 탐구합니다. 특히, 모델 내부의 활성화(activation) 상태에서 연산과 피연산자를 추출하여 외부 계산기로 연결하는 '활성화 기반 도구 인자' 방식에 초점을 맞춥니다. 이 연구는 LLM의 내부 작동 원리를 이해하고, 그 한계를 명확히 하는 데 기여합니다.
### 배경 설명
LLM은 텍스트 생성에 탁월하지만, 정확한 산술 연산에는 종종 어려움을 겪습니다. 이는 LLM이 본질적으로 다음 토큰 예측이라는 통계적 패턴 매칭 방식으로 작동하기 때문입니다. 인간이 수학을 배울 때 몸을 사용하고(손가락 세기, 필산 등) 구조화된 알고리즘을 적용하는 것과 달리, LLM은 오직 고차원 벡터 공간에서 숫자를 표현하고 변환합니다. 이러한 근본적인 차이 때문에, LLM이 산술 문제를 풀 때 단순히 패턴을 암기하는 것인지, 아니면 일종의 내부 알고리즘을 실행하는 것인지에 대한 의문이 제기되어 왔습니다.
이 연구는 이러한 질문에 답하기 위해 모델의 '내부 상태'를 직접 들여다보는 메커니즘 해석(mechanistic interpretability) 접근 방식을 사용합니다. 이는 LLM의 "블랙박스"를 열어 내부에서 숫자가 어떻게 표현되고 연산이 어떻게 처리되는지 이해하려는 중요한 시도입니다. 특히, 모델이 외부 도구(계산기)를 호출할 때 그 인자(피연산자, 연산 종류)를 프롬프트 텍스트 파싱이 아닌 모델의 내부 활성화 상태에서 추출하는 것이 가능한지에 대한 탐구가 핵심입니다.
### LLM의 수리 연산 방식에 대한 근본적인 질문
LLM이 산술 문제를 해결할 때, 단순히 패턴을 기억하는 것인지, 알고리즘과 유사한 것을 실행하는 것인지, 아니면 그저 그럴듯한 다음 토큰을 생성하는 것인지에 대한 질문에서 연구가 시작됩니다. 인간은 몸을 통해 수학적 개념을 습득하지만, LLM은 오직 행렬과 벡터를 통해 숫자를 표현하고 연산합니다. 이 글은 모델이 7x8=56과 같은 암기된 답을 내놓는 경우와 963/17과 같은 복잡한 계산을 수행하는 경우를 구분하며, LLM이 어떤 방식으로 답을 도출하는지 탐구합니다. 특히, 숫자가 '나선형(helix)' 형태로 인코딩될 수 있다는 가설과 함께, 잔여 스트림(residual stream)이라는 모델의 내부 스크래치패드에서 숫자의 상태가 어떻게 변화하는지 분석합니다.
### 다음 토큰 예측의 제약과 연산의 한계
LLM은 왼쪽에서 오른쪽으로 토큰을 순차적으로 생성해야 하는 '다음 토큰 예측' 제약을 가집니다. 이는 인간이 필산에서 자릿수를 올림(carry)하며 오른쪽에서 왼쪽으로 계산하는 방식과 대조됩니다. 예를 들어, 327 x 48 = 15696을 계산할 때, LLM은 '15'를 먼저 결정한 후 '696'을 생성해야 합니다. 이러한 제약은 특히 자릿수 올림(deep carry)이 필요한 긴 숫자 연산에서 모델의 정확도를 떨어뜨리는 주요 원인이 됩니다. 실험 결과, 긴 숫자열에서 자릿수 올림 경계에서 오류가 집중적으로 발생하며, 모델이 이전 숫자를 반복하는 고착 상태에 빠지는 현상이 관찰되었습니다. 이는 모델 내부의 숫자 표현이 길어질수록 '기하학적 혼잡(geometry crowding)'이 발생하여 해상도가 저하되기 때문으로 분석됩니다.
### 내부 상태 분석을 위한 도구 상자
LLM의 내부 작동 방식을 이해하기 위해 다양한 메커니즘 해석 도구들이 사용되었습니다. '프로브(Probe)'는 모델의 활성화 벡터에서 특정 사실(예: 연산 종류, 피연산자)을 읽어낼 수 있는지 확인합니다. '희소 오토인코더(Sparse Autoencoder, SAE)'는 밀집된 벡터 상태를 재사용 가능한 소수의 특징으로 설명하려 시도합니다. '활성화 패치(Activation Patch)'는 특정 활성화 상태를 다른 상태로 교체했을 때 모델의 행동이 어떻게 변하는지 관찰하여 인과적 영향을 파악합니다. 마지막으로 '조종(Steering)'은 특정 방향으로 벡터를 추가하여 모델의 상태를 조작하고 그 결과를 확인합니다. 이 도구들은 모델 내부의 숫자가 어떻게 인코딩되고 연산 정보가 어떻게 저장되는지 탐색하는 데 활용되었습니다.
### 활성화 기반 도구 인자 추출의 성공과 한계
이 연구의 핵심 목표는 프롬프트 텍스트 파싱 없이 모델의 내부 활성화 상태에서 연산과 피연산자를 추출하여 외부 계산기로 전달하는 '활성화 기반 도구 인자(Activation-derived tool arguments)' 방식의 가능성을 탐색하는 것이었습니다. 실험 결과, Llama 모델에서 곱셈, 나머지 있는 나눗셈, 최대공약수(GCD), 최소공배수(LCM)와 같은 네 가지 연산에 대해 이 방식이 성공적으로 작동함을 입증했습니다. 특히, 모델이 스스로 계산하지 못했던 많은 경우에 대해 정확한 답을 제공하며, 기존 모델 대비 상당한 정확도 향상(예: 나머지 있는 나눗셈 +0.810, LCM +0.968)을 보였습니다. 이는 모델이 산술 연산에 대한 내부적인 '흔적'을 활성화 상태에 남기며, 이를 해독하여 외부 도구와 연동할 수 있음을 시사합니다. 그러나 '잔여 JIT 교체(Residual JIT replacement)'와 같이 계산된 결과를 모델의 내부 상태에 다시 쓰는 시도는 테스트된 형태에서는 너무 취약하여 성공하지 못했습니다.
### 가치와 인사이트
이 연구는 LLM의 '블랙박스'를 열어 내부에서 숫자가 어떻게 표현되고 산술 연산 정보가 어떻게 저장되는지에 대한 귀중한 통찰을 제공합니다. 특히, 프롬프트 텍스트에 의존하지 않고 모델의 내부 활성화 상태에서 직접 연산과 피연산자를 추출하여 외부 계산기에 전달하는 '활성화 기반 도구 인자' 방식의 실현 가능성을 입증했습니다. 이는 LLM의 수학적 추론 능력을 향상시키는 새로운 접근 방식을 제시하며, 단순히 외부 도구를 호출하는 것을 넘어 모델이 '무엇을 이해하고 있는지'에 대한 깊이 있는 이해를 가능하게 합니다. 또한, '읽을 수 있는 변수'가 반드시 '쓸 수 있는 레지스터'는 아니라는 중요한 교훈을 통해 메커니즘 해석 연구의 방향성을 제시합니다. 이러한 발견은 LLM의 신뢰성과 정확성을 높이는 데 기여하며, 특히 금융, 과학 계산 등 정확성이 필수적인 분야에서 LLM의 활용 가능성을 확장할 수 있습니다.
### 기술·메타
- Llama (모델 패밀리)
- Pythia, OLMo, Qwen-2.5, Mistral, Yi (다른 모델 패밀리)
- 프로브 (Probe)
- 희소 오토인코더 (Sparse Autoencoder, SAE)
- 활성화 패치 (Activation Patch)
- 조종 (Steering)
- 잔여 스트림 (Residual Stream)
- 다음 토큰 예측 (Next-token prediction)
- 나선형 숫자 코드 (Helix-style number codes)
- DeepMind Mathematics Dataset (벤치마크)
- PAL, Program-of-Thoughts, ReAct, Toolformer (외부 도구 연동 시스템)
### 향후 전망
향후 연구는 모델별로 최적화된 '피연산자 지역화기(operand localizers)'를 구축하여, 모델마다 다른 내부 기하학적 구조에서 피연산자를 정확히 찾아내는 데 집중할 것입니다. 또한, 인과적 상호 교환 테스트를 통해 특정 활성화가 모델의 행동에 미치는 인과적 영향을 더욱 강력하게 입증해야 합니다. '잔여 스트림에 결과 쓰기'와 같은 내부 상태 수정 시도는 여전히 도전 과제로 남아 있으며, 단순한 로짓(logit) 수정이나 파서 기반 접근 방식과 비교하여 그 효용성을 검증해야 합니다. 이 연구에서 발견된 '내부 활성화 경로'는 모델 패밀리 간에 쉽게 전이되지 않는다는 한계가 있으므로, 범용적인 해석 및 제어 메커니즘을 개발하는 것이 중요합니다. 궁극적으로, LLM이 단순히 텍스트 패턴을 넘어 '기계 고유의' 수학적 추론 능력을 갖추도록 돕는 방향으로 발전할 것입니다. 경쟁 측면에서는, 이러한 내부 해석 기술이 LLM의 정확성과 신뢰성을 높여, 더욱 강력하고 투명한 AI 시스템을 구축하는 데 핵심적인 역할을 할 것으로 예상됩니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48410427)
- 원문: [링크 열기](https://alvaro-videla.com/llm-arithmetic-internals/article_interactive/article.html)
---
출처: Hacker News · [원문 링크](https://alvaro-videla.com/llm-arithmetic-internals/article_interactive/article.html)
제목글쓴이조회
- [AI Breakfast] OpenAI는 6억 명 이상의 사용자를 대상으로 에이전트 슈퍼앱 전환을 추진합니다. 구글은 2026년 10월부터 SpaceX와 월 9억 2천만 달러 규모의 GPU 컴퓨팅 계약을 체결했습니다. Anthropic은 2025년 후반 모델을 능가하는 미공개 모델과 맞춤형 칩 개발에 집중하고 있습니다.[0]Nedai13
- [The Verge] 마이크로소프트 AI 총괄, '초지능 임박했지만 일자리는 빼앗지 않아' 선언[0]Nedai12
- [The Verge] 구글 NotebookLM, 제미니 3.5 업그레이드로 클라우드 기반 연구 역량 강화[0]Nedai14
댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.