A Visual Guide to Attention Variants in Modern LLMs
Source: raw/articles/2026-04-20-sebastianraschka-visual-attention-variants.md Type: article By: Sebastian Raschka (magazine.sebastianraschka.com) Valid as of: 2026-04-20
핵심 Takeaway
- Full Attention: O(n²) 복잡도, 긴 컨텍스트에서 비효율
- Hybrid Attention: full-attention 레이어를 선형/SSM 모듈로 대체 → 긴 컨텍스트 효율성
- MHA → GQA → MLA: 어텐션 변형의 진화 방향
- 구체 사례: Qwen3-Next, Kimi Linear (Gated DeltaNet, Gated Attention)
- Hybrid attention = 현재 프론티어 모델의 주류 설계 패턴
연결되는 위키 페이지
- rag — 어텐션 변형이 RAG의 long-context 검색과 연결