[Hacker News 요약] LLM의 핵심 동작 원리: 토큰부터 예측까지
29
설명
이 글은 현대 대규모 언어 모델(LLM)의 내부 작동 방식을 비전문가도 이해할 수 있도록 상세히 설명합니다. 복잡한 수학적 배경 없이도, 텍스트가 어떻게 모델에 입력되어 처리되고 최종적으로 다음 단어를 예측하는지에 이르는 과정을 단계별로 안내합니다. 트랜스포머 아키텍처를 기반으로 하는 LLM의 핵심 구성 요소를 이해함으로써, 독자들은 최신 LLM 연구 논문이나 모델 카드에 나오는 용어들을 쉽게 파악할 수 있게 될 것입니다.
### 배경 설명
최근 몇 년간 LLM은 인공지능 분야에서 혁명적인 발전을 이끌며 챗봇, 콘텐츠 생성, 코드 작성 등 다양한 애플리케이션의 핵심 기술로 자리 잡았습니다. 이러한 LLM의 대부분은 2017년 Google이 발표한 트랜스포머(Transformer) 아키텍처를 기반으로 합니다. 트랜스포머는 기존 순환 신경망(RNN)의 한계를 극복하고 병렬 처리 능력을 극대화하여 대규모 데이터셋 학습을 가능하게 했습니다. 이 아키텍처의 핵심은 '어텐션(Attention)' 메커니즘으로, 입력 시퀀스 내의 모든 토큰 간의 관계를 동시에 고려하여 문맥을 파악하는 능력에 있습니다. 개발자 및 IT 전문가에게 LLM의 내부 작동 원리를 이해하는 것은 단순히 기술적 호기심을 넘어, 모델의 성능을 최적화하고, 특정 문제에 맞는 모델을 선택하며, 나아가 새로운 AI 애플리케이션을 설계하는 데 필수적인 지식입니다. 이 글은 이러한 배경 속에서 LLM의 근간을 이루는 기술적 요소들을 명확하게 해설하여, 빠르게 변화하는 AI 환경에 대한 깊이 있는 통찰을 제공합니다.
### 토큰화 및 임베딩
LLM은 텍스트를 직접 처리하지 않고, 이를 정수 ID 시퀀스로 변환하는 '토큰화' 과정을 거칩니다. 토크나이저는 입력 문자열을 수만에서 수십만 개의 고정된 어휘 목록에 있는 서브워드(subword) 조각들로 분리하고 각 조각에 ID를 부여합니다. 이는 전체 단어 기반 어휘의 비효율성과 문자 단위 어휘의 학습 부담 사이에서 균형을 맞춘 방식입니다. 토큰화된 정수 ID는 그 자체로는 의미가 없으므로, '임베딩 행렬'이라는 거대한 테이블을 통해 의미 있는 숫자 벡터로 변환됩니다. 이 임베딩 벡터는 훈련 과정에서 학습되며, 의미론적으로 유사한 토큰들은 벡터 공간에서 서로 가까운 위치에 배치되는 특성을 가집니다. 예를 들어, '왕'과 '여왕'의 벡터는 유사하며, '파리'와 '프랑스'의 벡터도 가깝습니다. 이러한 임베딩은 모델이 텍스트의 의미를 이해하는 첫걸음이 됩니다.
### 위치 인코딩 및 어텐션 메커니즘
임베딩만으로는 토큰의 순서 정보를 알 수 없기 때문에, LLM은 '위치 인코딩'을 통해 시퀀스 내 각 토큰의 위치 정보를 주입합니다. 초기 트랜스포머는 사인 및 코사인 함수를 이용한 패턴을 임베딩에 추가했지만, 현대 모델들은 '로터리 위치 임베딩(RoPE)'과 같이 벡터를 회전시켜 상대적 위치를 인코딩하는 방식을 주로 사용합니다. 이는 더 긴 컨텍스트에 잘 일반화되고 추가 매개변수가 필요 없다는 장점이 있습니다. 위치 정보가 인코딩된 후, '어텐션' 메커니즘은 각 토큰이 시퀀스 내의 다른 토큰들과 어떻게 정보를 주고받을지 결정합니다. 각 토큰은 Query(무엇을 찾는지), Key(무엇을 제공하는지), Value(전달될 정보) 세 가지 벡터로 변환되며, Query와 Key의 유사도 점수를 계산하여 Softmax를 통해 가중치를 부여합니다. 이 가중치를 바탕으로 Value 벡터들의 가중 평균을 계산하여 새로운 토큰 표현을 만듭니다. GPT와 같은 디코더 전용 모델은 미래 토큰을 볼 수 없도록 '인과적 마스킹(causal masking)'을 적용합니다. 어텐션은 'A B … A' 패턴을 인식하여 B를 예측하는 '유도 헤드(induction head)'와 같은 흥미로운 학습 메커니즘을 포함하며, 이는 인컨텍스트 학습의 핵심입니다.
### 멀티 헤드 어텐션 및 피드포워드 네트워크
단일 어텐션 패스는 언어의 복잡한 관계를 모두 포착하기 어렵기 때문에, LLM은 '멀티 헤드 어텐션'을 사용하여 여러 개의 독립적인 어텐션 패스(헤드)를 병렬로 실행합니다. 각 헤드는 고유한 학습된 투영 행렬을 통해 토큰 벡터를 다른 관점에서 분석하며, 이들의 출력을 결합하여 최종 벡터를 만듭니다. 이를 통해 모델은 문법적 관계, 대명사 참조, 위치 패턴 등 다양한 종류의 관계를 동시에 학습할 수 있습니다. 추론 시에는 이전에 생성된 토큰들의 Key 및 Value 벡터를 저장하는 'KV 캐시'를 사용하여 계산 효율성을 높이며, '그룹화된 쿼리 어텐션(GQA)'은 여러 쿼리 헤드가 소수의 Key/Value 헤드를 공유하여 메모리 사용량을 더욱 절감합니다. 어텐션 이후, 각 레이어는 '피드포워드 네트워크(FFN)'를 통해 각 토큰 벡터를 독립적으로 처리합니다. FFN은 벡터를 확장하고 비선형 함수(ReLU, GELU, SwiGLU 등)를 적용한 후 다시 압축하는 과정을 거치며, 모델의 저장된 사실적, 의미론적 구조의 대부분이 이 FFN의 가중치에 담겨 있습니다. 최근에는 'Mixture of Experts(MoE)' 아키텍처가 도입되어, 각 토큰이 여러 FFN(전문가) 중 일부만 활성화하여 처리되도록 함으로써, 매개변수 수를 크게 늘리면서도 추론 비용 증가를 억제하고 있습니다.
### 잔차 연결 및 레이어 정규화
깊은 신경망의 학습을 가능하게 하는 핵심 요소는 '잔차 연결(residual connection)'입니다. 어텐션이나 피드포워드 네트워크의 결과가 이전 벡터를 단순히 대체하는 것이 아니라, 원래 벡터에 더해지는 방식으로 정보가 누적됩니다. 이는 정보와 기울기가 네트워크를 통해 직접 전달될 수 있는 지름길을 제공하여, 수십, 수백 개의 레이어를 가진 모델도 효과적으로 훈련할 수 있게 합니다. 이 누적된 합을 '잔차 스트림(residual stream)'이라고 하며, 이는 모델의 모든 구성 요소가 읽고 쓰는 중심 객체가 됩니다. 또한, '레이어 정규화(layer normalization)'는 잔차 스트림의 숫자들이 훈련 중에 폭발하거나 0으로 수렴하는 것을 방지하여 안정적인 학습을 가능하게 합니다. 현대 트랜스포머는 주로 각 서브 블록 '이전'에 정규화를 적용하는 '프리-노름(pre-norm)' 방식을 사용하며, LLaMA, Mistral 등에서는 계산 효율적인 'RMSNorm'을 채택하여 벡터의 크기만 재조정합니다. 이 두 메커니즘 덕분에 LLM은 매우 깊은 구조를 가질 수 있습니다.
### 다음 토큰 예측 및 모델 차이점
모든 레이어의 처리가 끝난 후, 모델은 시퀀스의 마지막 토큰에 대한 최종 벡터를 사용하여 다음 토큰을 예측합니다. 이 벡터는 어휘 내의 각 가능한 토큰에 대한 점수('로짓')로 변환되며, Softmax 함수를 통해 확률 분포로 바뀝니다. 모델은 단순히 가장 높은 확률의 토큰을 선택하는 대신, '온도(temperature)', 'top-k', 'top-p'와 같은 디코딩 설정을 통해 출력의 무작위성이나 다양성을 조절할 수 있습니다. 선택된 토큰은 입력 시퀀스에 추가되어 다음 예측 단계의 입력이 되며, 이 과정은 모델이 종료 토큰을 생성하거나 길이 제한에 도달할 때까지 반복됩니다. 이 '다음 토큰 예측'이라는 단일 목표가 기본 LLM 훈련의 핵심 신호입니다. 모델 간의 차이는 주로 학습된 가중치, 레이어 수, 어휘 크기, 헤드 수, MoE 사용 여부와 같은 '구성', 그리고 명령어 튜닝, 인간 피드백 학습, 안전 제어와 같은 '후처리'에서 발생합니다. 최근 몇 년간 프리-노름, RMSNorm, RoPE, SwiGLU, GQA, MoE와 같은 기술들이 트랜스포머 아키텍처의 표준으로 수렴하는 경향을 보였습니다.
### 가치와 인사이트
이 글은 LLM의 복잡한 내부 구조를 개발자 및 IT 독자의 관점에서 명확하게 해설하여 실질적인 가치와 통찰을 제공합니다. 첫째, 토큰화, 임베딩, 어텐션, FFN 등 각 구성 요소의 역할을 이해함으로써, LLM 기반 시스템의 성능 병목 지점을 식별하고 최적화하는 데 필요한 기반 지식을 얻을 수 있습니다. 예를 들어, KV 캐시와 GQA의 원리를 알면 장문 컨텍스트 처리 시 메모리 사용량과 추론 비용을 절감하는 전략을 세울 수 있습니다. 둘째, 'lost in the middle' 문제나 유도 헤드와 같은 모델의 특정 동작 방식을 이해하면, 더욱 효과적인 프롬프트 엔지니어링 기법을 적용하여 모델의 응답 품질과 일관성을 향상시킬 수 있습니다. 셋째, MoE와 같은 최신 아키텍처 변화를 기존 트랜스포머 프레임워크와 연결하여 이해함으로써, 새로운 모델의 등장과 기술 동향을 빠르게 파악하고 비즈니스 및 기술 전략에 반영할 수 있습니다. 궁극적으로, 이 깊이 있는 이해는 LLM을 단순한 블랙박스가 아닌, 조작 가능하고 최적화 가능한 도구로 인식하게 하여, AI 시스템의 설계, 배포 및 문제 해결 능력을 크게 향상시킬 것입니다.
### 기술·메타
- Machine Learning
- Transformers
- LLM
- Neural Networks
- AI
- Byte Pair Encoding (BPE)
- SentencePiece
- Rotary Position Embeddings (RoPE)
- FlashAttention
- Sparse Attention
- Linear Attention
- Grouped-Query Attention (GQA)
- Mixture of Experts (MoE)
- ReLU, GELU, SwiGLU (Activation Functions)
- RMSNorm
- Speculative Decoding
### 향후 전망
LLM 아키텍처는 지난 몇 년간 트랜스포머를 중심으로 놀라운 수렴을 보였지만, 미래에는 새로운 변화의 물결이 예상됩니다. Mamba와 같은 State-Space Model(SSM)은 특히 매우 긴 시퀀스 처리에서 트랜스포머의 강력한 대안으로 부상하고 있으며, 효율성과 확장성 측면에서 새로운 가능성을 제시합니다. 또한, Mixture of Experts(MoE)는 이미 '아키텍처'의 정의를 확장하며, 매개변수 수를 기하급수적으로 늘리면서도 추론 비용을 효율적으로 관리하는 새로운 패러다임을 제시하고 있습니다. 이러한 변화 속에서도 토큰화, 임베딩, 위치 인코딩, 어텐션, 피드포워드 네트워크, 잔차 스트림, 정규화, 다음 토큰 예측과 같은 핵심 메커니즘은 어떤 형태로든 시퀀스 모델이 해결해야 할 근본적인 문제로 남아있을 것입니다. 앞으로는 효율성, 장문 컨텍스트 처리 능력, 그리고 특정 도메인에 최적화된 하이브리드 아키텍처 변형이 더욱 중요해질 것으로 예상됩니다. AI 커뮤니티는 이러한 새로운 기술들을 빠르게 채택하고 발전시키며, LLM의 한계를 지속적으로 확장해 나갈 것입니다. 경쟁은 더욱 치열해질 것이며, 이는 더 빠르고, 더 똑똑하며, 더 효율적인 LLM의 등장을 촉진할 것입니다.
📝 원문 및 참고
- Source: Hacker News
- 토론(HN): [news.ycombinator.com](https://news.ycombinator.com/item?id=48389360)
- 원문: [링크 열기](https://www.0xkato.xyz/how-llms-actually-work/)
---
출처: Hacker News · [원문 링크](https://www.0xkato.xyz/how-llms-actually-work/)
제목글쓴이조회
- [AI Breakfast] OpenAI는 6억 명 이상의 사용자를 대상으로 에이전트 슈퍼앱 전환을 추진합니다. 구글은 2026년 10월부터 SpaceX와 월 9억 2천만 달러 규모의 GPU 컴퓨팅 계약을 체결했습니다. Anthropic은 2025년 후반 모델을 능가하는 미공개 모델과 맞춤형 칩 개발에 집중하고 있습니다.[0]Nedai11
- [The Verge] 마이크로소프트 AI 총괄, '초지능 임박했지만 일자리는 빼앗지 않아' 선언[0]Nedai10
- [The Verge] 구글 NotebookLM, 제미니 3.5 업그레이드로 클라우드 기반 연구 역량 강화[0]Nedai12
댓글 0
아직 댓글이 없습니다. 첫 댓글을 남겨 보세요.