LiteParse
Summary
LlamaIndex의 오픈소스 PDF 텍스트 추출 도구. AI 모델 불사용, Spatial text parsing 휴리스틱으로 멀티컬럼 레이아웃을 선형 텍스트로 복원. Node.js CLI 설계이나 브라우저 버전(simon-willison 포팅)도 존재.
LlamaIndex의 오픈소스 PDF 텍스트 추출 도구. AI 모델 불사용, Spatial text parsing 휴리스틱으로 멀티컬럼 레이아웃을 선형 텍스트로 복원. Node.js CLI 설계이나 브라우저 버전(simon-willison 포팅)도 존재.
개요
LiteParse는 LlamaIndex가 제작한 Node.js CLI 도구로, 에이전트용 PDF 파싱 도구로 설계됐다. PDF.js를 기반으로 텍스트 추출하고, 이미지 기반 PDF는 Tesseract.js(또는 다른 플러그 가능한 OCR 엔진)로 폴백한다.
다른 PDF 추출 도구와의 차별점은 Spatial text parsing: PDF 파일 내 텍스트는 논리적 읽기 순서와 다르게 저장되는 경우가 많다 (특히 멀티컬럼, 표, 사이드바). LiteParse는 영리한 휴리스틱으로 컬럼 구조를 감지하고 텍스트를 자연스러운 선형 흐름으로 재구성한다.
npm i -g @llamaindex/liteparse
lit parse document.pdf주요 사실
- LlamaIndex 개발, Node.js CLI 설계 (출처: simon-willison-liteparse-for-the-web)
- AI 모델 불사용 — PDF.js 기반 파싱 + Tesseract.js OCR 폴백 (출처: simon-willison-liteparse-for-the-web)
- Visual Citations with Bounding Boxes 패턴 지원: RAG Q&A 답변에 PDF 크롭 이미지 첨부 → 신뢰도 향상 (출처: simon-willison-liteparse-for-the-web)
- 2026-04-23: simon-willison이 브라우저 버전 포팅 — https://simonw.github.io/liteparse/ (출처: simon-willison-liteparse-for-the-web)
- Claude Code(Opus 4.7) 59분 빌드, 순수 vibe coding
- GitHub Pages + Vite 빌드로 자동 배포
- 2026-04: LlamaIndex에 브라우저 버전 이슈 제출(#147) — 공식 채택 여부 미정 (출처: simon-willison-liteparse-for-the-web)
관련 개념
- vibe-coding — 브라우저 버전이 Claude Code 순수 vibe coding 실증 사례
- harness-engineering — LiteParse 에이전트용 CLI 설계가 harness tool 패턴과 맞닿음
관련 엔티티
- simon-willison — 브라우저 버전 포팅자
- claude-code — 브라우저 버전 빌드에 사용된 에이전트