vLLM

Summary

LLM 추론·서빙을 위한 고처리량·메모리 효율 오픈소스 엔진. PagedAttention으로 KV 캐시를 OS 페이징 방식으로 관리해 GPU 메모리 낭비를 최소화한다.

LLM 추론·서빙을 위한 고처리량·메모리 효율 오픈소스 엔진. PagedAttention으로 KV 캐시를 OS 페이징 방식으로 관리해 GPU 메모리 낭비를 최소화한다.

개요

vLLM은 UC Berkeley Sky Lab에서 개발한 LLM 추론 엔진으로, “Easy, Fast, Cost Efficient”를 설계 원칙으로 삼는다. OpenAI 호환 API를 기본 제공해 기존 파이프라인에 drop-in 교체가 가능하다.

핵심 혁신은 PagedAttention이다. KV 캐시를 OS의 가상 메모리·페이징에서 착안한 블록 단위로 관리해 메모리 단편화를 줄이고, 동시 처리 가능한 요청 수(배치 크기)를 크게 늘린다.

연속 배치(continuous batching)와 고급 스케줄링으로 GPU 활용률을 극대화하며, 텐서 병렬처리(tensor parallelism)로 멀티-GPU 서빙도 지원한다.

주요 사실

  • 출처: UC Berkeley Sky Computing Lab, 2000+ contributors (2026-05-08 기준)
  • Python: 3.10+ 필수, 3.12+ 권장
  • 하드웨어: NVIDIA/AMD GPU, x86/ARM/PowerPC CPU, Google TPU, Intel Gaudi, Apple Silicon 등
  • 설치: uv pip install vllm (uv 권장) 또는 pip install vllm
  • API 호환성: OpenAI 호환 REST API + Anthropic Messages API + gRPC 동시 지원
  • 모델 지원: 200+ HuggingFace 아키텍처 (Decoder-only, MoE, 멀티모달, 임베딩, Reward)
  • 양자화: FP8, GPTQ/AWQ, GGUF, INT4/INT8 등 다수 (2026-05-08 기준)
  • 논문: arXiv 2309.06180 (SOSP 2023)
  • 공식 문서: https://docs.vllm.ai/
  • GitHub: https://github.com/vllm-project/vllm

관련 개념

  • PagedAttention — vLLM의 핵심 메모리 관리 알고리즘
  • gemma-4 — vLLM day-one 지원 모델 중 하나

소스