LoHo-Manip

Summary

VLA 기반 장기(long-horizon) 로봇 조작 과제를 위한 모듈형 프레임워크. NVIDIA·UCSD 공동 연구 (2026-04-23).

VLA 기반 장기(long-horizon) 로봇 조작 과제를 위한 모듈형 프레임워크. NVIDIA·UCSD 공동 연구 (2026-04-23).

개요

LoHo-Manip(Long-Horizon Manipulation)은 단기 VLA 실행을 장기 지시 수행으로 확장하기 위해 Manager VLM + Executor VLA 이중 구조를 채택한 프레임워크다.

핵심 통찰: 장기 과제를 하나의 거대 정책으로 해결하는 대신, 계획(manager)과 실행(executor)을 독립 모듈로 분리하면 각각의 강점을 활용할 수 있다. Manager VLM은 고수준 계획과 재계획을, Executor VLA는 저수준 제어를 담당한다.

주요 사실

아키텍처 상세

Manager VLM

매 스텝마다 현재 관측을 입력받아 remaining plan 예측:

  1. Subtask sequence — 완료(done) + 잔여(remaining) 분할. 경량 언어 메모리 역할
  2. Visual Trace — 2D keypoint trajectory. Executor VLA에 전달하는 컴팩트 시각 프롬프트

Executor VLA

Visual Trace를 조건으로 단기(local) 제어를 반복 수행. 장기 의사결정 = trace-following 반복으로 분해.

암묵적 Closed-Loop

명시적 오류 감지 로직 없이도 자동 재계획:

  • 실패 subtask → 다음 remaining plan에 자동 잔존
  • Visual Trace → 실패에 따라 자동 갱신

이 패턴은 harness-engineering에서 말하는 “피드백 루프 없이 피드백” — 시스템 설계 자체가 오류 복구 메커니즘인 사례.

관련 개념

관련 엔티티

(현재 없음)

소스