vLLM 공식 문서 — Welcome to vLLM
Key Insight
UC Berkeley Sky Computing Lab에서 시작된 LLM 추론 엔진. PagedAttention·연속 배치로 처리량을 극대화하며, 200+ 모델 아키텍처와 10+ 하드웨어 플랫폼을 단일 엔진으로 지원한다.
출처: https://docs.vllm.ai/ 타입: 공식 문서 작성자: vLLM Community (2000+ contributors) 유효일: 2026-05-08
핵심 Takeaway
- PagedAttention으로 KV 캐시를 블록 단위 관리 → GPU 메모리 단편화 최소화
- 연속 배치(continuous batching)로 동일 하드웨어에서 최대 23x 처리량 향상 (Anyscale 측정, 2026-05-08 기준)
- 200+ HuggingFace 모델 아키텍처 지원 — Decoder-only, MoE, 멀티모달, 임베딩, Reward 모델 포함
- OpenAI 호환 API + Anthropic Messages API + gRPC 동시 지원
- NVIDIA/AMD GPU, x86/ARM/PowerPC CPU, Google TPU, Intel Gaudi, Apple Silicon 등 이기종 하드웨어
- arXiv 논문 2309.06180 (SOSP 2023)에서 학술 검증
상세 요약
속도 최적화 기법
- PagedAttention: KV 캐시 비연속 블록 관리로 메모리 낭비 제거
- Chunked Prefill / Prefix Caching: 프리필 단계 분할 + KV 캐시 재사용
- Speculative Decoding: n-gram, suffix, EAGLE, DFlash 방식 지원
- Attention 커널: FlashAttention, FlashInfer, TRTLLM-GEN, FlashMLA, Triton
- GEMM/MoE 커널: CUTLASS, TRTLLM-GEN, CuTeDSL 기반 최적화
- torch.compile 기반 자동 커널 생성 및 그래프 변환
양자화 지원 (2026-05-08 기준)
FP8, MXFP8/MXFP4, NVFP4, INT8, INT4, GPTQ/AWQ, GGUF, compressed-tensors, ModelOpt, TorchAO
분산 추론
텐서 병렬(Tensor) / 파이프라인 병렬(Pipeline) / 데이터 병렬(Data) / 전문가 병렬(Expert) / 컨텍스트 병렬(Context) 모두 지원. Disaggregated prefill-decode-encode도 지원.
지원 모델 유형
| 유형 | 예시 |
|---|---|
| Decoder-only LLM | Llama, Qwen, [[wiki/entities/gemma-4 |
| MoE LLM | Mixtral, DeepSeek-V3, Qwen-MoE |
| Hybrid (Attention + SSM) | Mamba, Qwen3.5 |
| 멀티모달 | LLaVA, Qwen-VL, Pixtral |
| 임베딩·검색 | E5-Mistral, GTE, ColBERT |
| Reward·분류 | Qwen-Math |
편의 기능
- Multi-LoRA 효율 지원 (dense + MoE 레이어)
- Structured output 생성 (xgrammar, guidance)
- Tool calling + Reasoning parsers
- 스트리밍 출력
연결되는 노트
- vLLM — 이 문서의 주체 엔진
- PagedAttention — 핵심 메모리 관리 알고리즘
- gemma-4 — 지원 모델 중 하나