Transformer 아키텍처 & Self-Attention 메커니즘

Source: raw/articles/2026-04-26-transformer-architecture-huggingface.md Type: article By: Hugging Face (The Transformers Course) Valid as of: 2026-04-26

핵심 Takeaway

Transformer의 핵심: Self-Attention 메커니즘으로 시퀀스의 모든 토큰 간 관계를 동시에 계산 (RNN/LSTM의 순차 처리 문제 해결)
Query-Key-Value (QKV) 구조: 각 단어를 3개 벡터로 표현 → Attention 가중치 계산 → 최종 출력
Multi-Head Attention: 8개 이상의 병렬 헤드로 다양한 관점 학습 (문법, 의미, 구조 등)
어텐션 가중치 계산: softmax(Q·K^T / √d_k) · V 공식으로 각 토큰의 중요도(0~1) 결정
Positional Encoding: 입력 순서 정보를 임베딩에 추가하여 위치 정보 보존
최신 개선사항 (2026): Flash Attention (3배 빠름), GQA (40% 메모리 감소), ALiBi, Rotary PE

학습 목표 연계

Lecture Plan 2026 — Gen-1: Transformer 아키텍처 이해 (Bloom L2-Understand)

학습목표	증거	상태
Behavior: Self-Attention·Multi-head 작동 원리 설명	2-4개 헤드 예시로 단계별 계산 과정 설명	✅
Condition: 간단한 예시 문장 (“The cat sat on the mat”)	실제 문장 예시로 QKV 벡터 및 어텐션 가중치 계산 시연	✅
Degree: 어텐션 가중치 계산 및 시각화 가능	수치 예시 + 주목도 분포 차트 (대명사 해결 사례)	✅

내용 구성

1. Transformer의 탄생 배경

RNN/LSTM의 문제점 (순차 처리, 병렬화 불가)
2017 “Attention is All You Need” 논문 발표

2. Self-Attention 핵심 원리

QKV 행렬: Query (검색), Key (특징), Value (정보)
Attention 가중치 계산: softmax(Q·K^T / √d_k)
Single Head 예시: “the” 단어의 주목도 계산 (0-1 범위의 softmax)

3. Multi-Head Attention

왜 필요한가 (다양한 관점)
병렬 구조 (8-head 예시)
Head별 역할 분담 (문법, 의미, 구조)

4. 주목도 시각화

“it” 대명사 해결 사례
어텐션 히트맵 해석법

5. Positional Encoding

공식: sin/cos 함수 기반
위치별 임베딩 벡터 예시

6. 전체 Transformer 구조

Tokenization → Embedding → Positional Encoding → 6개 Encoder Layer → Decoder → 출력
각 레이어: Multi-Head Attention + Feed-Forward + Residual Connection + Layer Norm

7. 최신 개선 기법 (2026)

Flash Attention: 메모리 효율 (3배 빠름)
Grouped Query Attention (GQA): 메모리 40% 감소
Attention with Linear Biases (ALiBi): 더 긴 시퀀스
Rotary Position Embedding: 절대→상대 위치 (외삽 성능 향상)

관련 개념

attention-mechanism — Attention의 수학적 기초
nlp-fundamentals — NLP 기초 (토큰화, 임베딩)
hugging-face — Hugging Face 플랫폼

다른 Gen 모듈과의 연계

Gen-2 prompt-engineering-techniques — Transformer 내부에서 프롬프트 처리 방식
Gen-3 rag-implementation — RAG에서 Transformer 임베딩 활용
Gen-4 genai-design-patterns — Agent에서 Transformer 기반 LLM 활용

실전 활용 팁

어텐션 가중치 시각화: BertViz, Exbert 등 도구로 실제 모델의 어텐션 시각화 가능
다층 어텐션: Transformer의 12개 레이어 × 12개 헤드 = 144개 어텐션 헤드 존재
계산 복잡도: O(n²) — 시퀀스 길이 증가 시 기하급수적 비용 증가 → Flash Attention의 필요성