LoHo-Manip
Summary
VLA 기반 장기(long-horizon) 로봇 조작 과제를 위한 모듈형 프레임워크. NVIDIA·UCSD 공동 연구 (2026-04-23).
VLA 기반 장기(long-horizon) 로봇 조작 과제를 위한 모듈형 프레임워크. NVIDIA·UCSD 공동 연구 (2026-04-23).
개요
LoHo-Manip(Long-Horizon Manipulation)은 단기 VLA 실행을 장기 지시 수행으로 확장하기 위해 Manager VLM + Executor VLA 이중 구조를 채택한 프레임워크다.
핵심 통찰: 장기 과제를 하나의 거대 정책으로 해결하는 대신, 계획(manager)과 실행(executor)을 독립 모듈로 분리하면 각각의 강점을 활용할 수 있다. Manager VLM은 고수준 계획과 재계획을, Executor VLA는 저수준 제어를 담당한다.
주요 사실
- 제안: 2026-04-23, arXiv:2604.21924v1 (출처: loho-manip-vla-long-horizon-2026)
- 소속: Isabella Liu 외 9인 (NVIDIA, UCSD)
- 아키텍처: Manager VLM + Executor VLA 분리 구조
- 핵심 메커니즘: receding-horizon-planning + Visual Trace conditioning
- 실험 플랫폼: Franka 실로봇 + 시뮬레이션
- 결과: 장기 성공률·강건성·OOD 일반화 개선 (2026-04-23 기준)
- 프로젝트 페이지: https://www.liuisabella.com/LoHoManip
아키텍처 상세
Manager VLM
매 스텝마다 현재 관측을 입력받아 remaining plan 예측:
- Subtask sequence — 완료(done) + 잔여(remaining) 분할. 경량 언어 메모리 역할
- Visual Trace — 2D keypoint trajectory. Executor VLA에 전달하는 컴팩트 시각 프롬프트
Executor VLA
Visual Trace를 조건으로 단기(local) 제어를 반복 수행. 장기 의사결정 = trace-following 반복으로 분해.
암묵적 Closed-Loop
명시적 오류 감지 로직 없이도 자동 재계획:
- 실패 subtask → 다음 remaining plan에 자동 잔존
- Visual Trace → 실패에 따라 자동 갱신
이 패턴은 harness-engineering에서 말하는 “피드백 루프 없이 피드백” — 시스템 설계 자체가 오류 복구 메커니즘인 사례.
관련 개념
- vision-language-action — 기반 모델 아키텍처
- receding-horizon-planning — 핵심 계획 방법론
- harness-engineering — Manager-Executor 분리는 계층적 harness 패턴의 로보틱스 구현
관련 엔티티
(현재 없음)