토큰 경제학 (Token Economics)

LLM 서빙에서 토큰당 비용이 결정되는 원리. t_compute와 t_memory의 균형, 하드웨어 스펙, 배치 크기, context length가 복합 작용하여 API 가격 구조를 형성한다.

가격 구조가 만들어지는 원리

가격 항목	인프라 원인
Output > Input 토큰 가격	Decode(한 토큰씩)가 Prefill(병렬)보다 hardware utilization 낮음
Context 200K 초과 티어	KV 캐시 로딩이 지배적 → memory-bound 전환 → 서빙 가능 유저 수 급감
캐시 토큰 할인	HBM에 KV 캐시 있으면 prefill 재계산 불필요 → 비용 절감 통과
캐시 TTL(5분/1시간)	KV 캐시 eviction 계층: HBM → DRAM → Flash → HDD

HBM (즉시 hit)
  ↓ ~1분 미사용
CPU DRAM
  ↓ ~10분 미사용
Flash SSD
  ↓ TTL 만료
삭제 → 다음 요청 시 prefill 재실행 (비쌈)

프론티어 랩들은 경쟁 상황에서 원가 근처로 가격을 수렴시키기 때문에, API 가격표로 서빙 인프라 구조를 역산할 수 있다.