vLLM 공식 문서 — Welcome to vLLM

Key Insight

UC Berkeley Sky Computing Lab에서 시작된 LLM 추론 엔진. PagedAttention·연속 배치로 처리량을 극대화하며, 200+ 모델 아키텍처와 10+ 하드웨어 플랫폼을 단일 엔진으로 지원한다.

출처: https://docs.vllm.ai/ 타입: 공식 문서 작성자: vLLM Community (2000+ contributors) 유효일: 2026-05-08

핵심 Takeaway

PagedAttention으로 KV 캐시를 블록 단위 관리 → GPU 메모리 단편화 최소화
연속 배치(continuous batching)로 동일 하드웨어에서 최대 23x 처리량 향상 (Anyscale 측정, 2026-05-08 기준)
200+ HuggingFace 모델 아키텍처 지원 — Decoder-only, MoE, 멀티모달, 임베딩, Reward 모델 포함
OpenAI 호환 API + Anthropic Messages API + gRPC 동시 지원
NVIDIA/AMD GPU, x86/ARM/PowerPC CPU, Google TPU, Intel Gaudi, Apple Silicon 등 이기종 하드웨어
arXiv 논문 2309.06180 (SOSP 2023)에서 학술 검증

FP8, MXFP8/MXFP4, NVFP4, INT8, INT4, GPTQ/AWQ, GGUF, compressed-tensors, ModelOpt, TorchAO

텐서 병렬(Tensor) / 파이프라인 병렬(Pipeline) / 데이터 병렬(Data) / 전문가 병렬(Expert) / 컨텍스트 병렬(Context) 모두 지원. Disaggregated prefill-decode-encode도 지원.

유형	예시
Decoder-only LLM	Llama, Qwen, [[wiki/entities/gemma-4
MoE LLM	Mixtral, DeepSeek-V3, Qwen-MoE
Hybrid (Attention + SSM)	Mamba, Qwen3.5
멀티모달	LLaVA, Qwen-VL, Pixtral
임베딩·검색	E5-Mistral, GTE, ColBERT
Reward·분류	Qwen-Math