LoHo-Manip

Summary

VLA 기반 장기(long-horizon) 로봇 조작 과제를 위한 모듈형 프레임워크. NVIDIA·UCSD 공동 연구 (2026-04-23).

LoHo-Manip(Long-Horizon Manipulation)은 단기 VLA 실행을 장기 지시 수행으로 확장하기 위해 Manager VLM + Executor VLA 이중 구조를 채택한 프레임워크다.

핵심 통찰: 장기 과제를 하나의 거대 정책으로 해결하는 대신, 계획(manager)과 실행(executor)을 독립 모듈로 분리하면 각각의 강점을 활용할 수 있다. Manager VLM은 고수준 계획과 재계획을, Executor VLA는 저수준 제어를 담당한다.

매 스텝마다 현재 관측을 입력받아 remaining plan 예측:

Visual Trace를 조건으로 단기(local) 제어를 반복 수행. 장기 의사결정 = trace-following 반복으로 분해.

명시적 오류 감지 로직 없이도 자동 재계획:

이 패턴은 harness-engineering에서 말하는 “피드백 루프 없이 피드백” — 시스템 설계 자체가 오류 복구 메커니즘인 사례.