A Visual Guide to Attention Variants in Modern LLMs

Source: raw/articles/2026-04-20-sebastianraschka-visual-attention-variants.md Type: article By: Sebastian Raschka (magazine.sebastianraschka.com) Valid as of: 2026-04-20

핵심 Takeaway

  • Full Attention: O(n²) 복잡도, 긴 컨텍스트에서 비효율
  • Hybrid Attention: full-attention 레이어를 선형/SSM 모듈로 대체 → 긴 컨텍스트 효율성
  • MHA → GQA → MLA: 어텐션 변형의 진화 방향
  • 구체 사례: Qwen3-Next, Kimi Linear (Gated DeltaNet, Gated Attention)
  • Hybrid attention = 현재 프론티어 모델의 주류 설계 패턴

연결되는 위키 페이지

  • rag — 어텐션 변형이 RAG의 long-context 검색과 연결