Transformer 아키텍처 & Self-Attention 메커니즘

Source: raw/articles/2026-04-26-transformer-architecture-huggingface.md Type: article By: Hugging Face (The Transformers Course) Valid as of: 2026-04-26

핵심 Takeaway

  • Transformer의 핵심: Self-Attention 메커니즘으로 시퀀스의 모든 토큰 간 관계를 동시에 계산 (RNN/LSTM의 순차 처리 문제 해결)
  • Query-Key-Value (QKV) 구조: 각 단어를 3개 벡터로 표현 → Attention 가중치 계산 → 최종 출력
  • Multi-Head Attention: 8개 이상의 병렬 헤드로 다양한 관점 학습 (문법, 의미, 구조 등)
  • 어텐션 가중치 계산: softmax(Q·K^T / √d_k) · V 공식으로 각 토큰의 중요도(0~1) 결정
  • Positional Encoding: 입력 순서 정보를 임베딩에 추가하여 위치 정보 보존
  • 최신 개선사항 (2026): Flash Attention (3배 빠름), GQA (40% 메모리 감소), ALiBi, Rotary PE

학습 목표 연계

Lecture Plan 2026Gen-1: Transformer 아키텍처 이해 (Bloom L2-Understand)

학습목표증거상태
Behavior: Self-Attention·Multi-head 작동 원리 설명2-4개 헤드 예시로 단계별 계산 과정 설명
Condition: 간단한 예시 문장 (“The cat sat on the mat”)실제 문장 예시로 QKV 벡터 및 어텐션 가중치 계산 시연
Degree: 어텐션 가중치 계산 및 시각화 가능수치 예시 + 주목도 분포 차트 (대명사 해결 사례)

내용 구성

1. Transformer의 탄생 배경

  • RNN/LSTM의 문제점 (순차 처리, 병렬화 불가)
  • 2017 “Attention is All You Need” 논문 발표

2. Self-Attention 핵심 원리

  • QKV 행렬: Query (검색), Key (특징), Value (정보)
  • Attention 가중치 계산: softmax(Q·K^T / √d_k)
  • Single Head 예시: “the” 단어의 주목도 계산 (0-1 범위의 softmax)

3. Multi-Head Attention

  • 왜 필요한가 (다양한 관점)
  • 병렬 구조 (8-head 예시)
  • Head별 역할 분담 (문법, 의미, 구조)

4. 주목도 시각화

  • “it” 대명사 해결 사례
  • 어텐션 히트맵 해석법

5. Positional Encoding

  • 공식: sin/cos 함수 기반
  • 위치별 임베딩 벡터 예시

6. 전체 Transformer 구조

  • Tokenization → Embedding → Positional Encoding → 6개 Encoder Layer → Decoder → 출력
  • 각 레이어: Multi-Head Attention + Feed-Forward + Residual Connection + Layer Norm

7. 최신 개선 기법 (2026)

  • Flash Attention: 메모리 효율 (3배 빠름)
  • Grouped Query Attention (GQA): 메모리 40% 감소
  • Attention with Linear Biases (ALiBi): 더 긴 시퀀스
  • Rotary Position Embedding: 절대→상대 위치 (외삽 성능 향상)

관련 개념

다른 Gen 모듈과의 연계

실전 활용 팁

  1. 어텐션 가중치 시각화: BertViz, Exbert 등 도구로 실제 모델의 어텐션 시각화 가능
  2. 다층 어텐션: Transformer의 12개 레이어 × 12개 헤드 = 144개 어텐션 헤드 존재
  3. 계산 복잡도: O(n²) — 시퀀스 길이 증가 시 기하급수적 비용 증가 → Flash Attention의 필요성