Transformer 아키텍처 & Self-Attention 메커니즘
Source: raw/articles/2026-04-26-transformer-architecture-huggingface.md Type: article By: Hugging Face (The Transformers Course) Valid as of: 2026-04-26
핵심 Takeaway
- Transformer의 핵심: Self-Attention 메커니즘으로 시퀀스의 모든 토큰 간 관계를 동시에 계산 (RNN/LSTM의 순차 처리 문제 해결)
- Query-Key-Value (QKV) 구조: 각 단어를 3개 벡터로 표현 → Attention 가중치 계산 → 최종 출력
- Multi-Head Attention: 8개 이상의 병렬 헤드로 다양한 관점 학습 (문법, 의미, 구조 등)
- 어텐션 가중치 계산: softmax(Q·K^T / √d_k) · V 공식으로 각 토큰의 중요도(0~1) 결정
- Positional Encoding: 입력 순서 정보를 임베딩에 추가하여 위치 정보 보존
- 최신 개선사항 (2026): Flash Attention (3배 빠름), GQA (40% 메모리 감소), ALiBi, Rotary PE
학습 목표 연계
Lecture Plan 2026 — Gen-1: Transformer 아키텍처 이해 (Bloom L2-Understand)
| 학습목표 | 증거 | 상태 |
|---|---|---|
| Behavior: Self-Attention·Multi-head 작동 원리 설명 | 2-4개 헤드 예시로 단계별 계산 과정 설명 | ✅ |
| Condition: 간단한 예시 문장 (“The cat sat on the mat”) | 실제 문장 예시로 QKV 벡터 및 어텐션 가중치 계산 시연 | ✅ |
| Degree: 어텐션 가중치 계산 및 시각화 가능 | 수치 예시 + 주목도 분포 차트 (대명사 해결 사례) | ✅ |
내용 구성
1. Transformer의 탄생 배경
- RNN/LSTM의 문제점 (순차 처리, 병렬화 불가)
- 2017 “Attention is All You Need” 논문 발표
2. Self-Attention 핵심 원리
- QKV 행렬: Query (검색), Key (특징), Value (정보)
- Attention 가중치 계산: softmax(Q·K^T / √d_k)
- Single Head 예시: “the” 단어의 주목도 계산 (0-1 범위의 softmax)
3. Multi-Head Attention
- 왜 필요한가 (다양한 관점)
- 병렬 구조 (8-head 예시)
- Head별 역할 분담 (문법, 의미, 구조)
4. 주목도 시각화
- “it” 대명사 해결 사례
- 어텐션 히트맵 해석법
5. Positional Encoding
- 공식: sin/cos 함수 기반
- 위치별 임베딩 벡터 예시
6. 전체 Transformer 구조
- Tokenization → Embedding → Positional Encoding → 6개 Encoder Layer → Decoder → 출력
- 각 레이어: Multi-Head Attention + Feed-Forward + Residual Connection + Layer Norm
7. 최신 개선 기법 (2026)
- Flash Attention: 메모리 효율 (3배 빠름)
- Grouped Query Attention (GQA): 메모리 40% 감소
- Attention with Linear Biases (ALiBi): 더 긴 시퀀스
- Rotary Position Embedding: 절대→상대 위치 (외삽 성능 향상)
관련 개념
- attention-mechanism — Attention의 수학적 기초
- nlp-fundamentals — NLP 기초 (토큰화, 임베딩)
- hugging-face — Hugging Face 플랫폼
다른 Gen 모듈과의 연계
- Gen-2 prompt-engineering-techniques — Transformer 내부에서 프롬프트 처리 방식
- Gen-3 rag-implementation — RAG에서 Transformer 임베딩 활용
- Gen-4 genai-design-patterns — Agent에서 Transformer 기반 LLM 활용
실전 활용 팁
- 어텐션 가중치 시각화: BertViz, Exbert 등 도구로 실제 모델의 어텐션 시각화 가능
- 다층 어텐션: Transformer의 12개 레이어 × 12개 헤드 = 144개 어텐션 헤드 존재
- 계산 복잡도: O(n²) — 시퀀스 길이 증가 시 기하급수적 비용 증가 → Flash Attention의 필요성