토큰 경제학 (Token Economics)

LLM 서빙에서 토큰당 비용이 결정되는 원리. t_computet_memory의 균형, 하드웨어 스펙, 배치 크기, context length가 복합 작용하여 API 가격 구조를 형성한다.

가격 구조가 만들어지는 원리

가격 항목인프라 원인
Output > Input 토큰 가격Decode(한 토큰씩)가 Prefill(병렬)보다 hardware utilization 낮음
Context 200K 초과 티어KV 캐시 로딩이 지배적 → memory-bound 전환 → 서빙 가능 유저 수 급감
캐시 토큰 할인HBM에 KV 캐시 있으면 prefill 재계산 불필요 → 비용 절감 통과
캐시 TTL(5분/1시간)KV 캐시 eviction 계층: HBM → DRAM → Flash → HDD

KV 캐시 계층 eviction

HBM (즉시 hit)
  ↓ ~1분 미사용
CPU DRAM
  ↓ ~10분 미사용
Flash SSD
  ↓ TTL 만료
삭제 → 다음 요청 시 prefill 재실행 (비쌈)

서빙 가능 유저 수

  • 모든 유저가 decode 중 → 유저당 토큰 1개 → 배치 2400 = 2400명 동시 가능
  • 유저당 context 길어질수록(≥200K) → KV 캐시 메모리 점유 증가 → 동시 수용 유저 감소
  • Chunked prefill: 긴 입력도 잘게 쪼개어 decode 배치에 혼재 → GPU 유휴 방지

API 가격 역산

프론티어 랩들은 경쟁 상황에서 원가 근처로 가격을 수렴시키기 때문에, API 가격표로 서빙 인프라 구조를 역산할 수 있다.

관련 개념

참고