Google Genie

Google (정확히는 GoogleDeepMind) 가 Google-IO-2026 에서 공개한 월드 모델(World Model) 기반 환경 생성 도구. 캐릭터와 환경 두 가지 입력을 받아 게임·VR·XR·AI 에이전트 학습용 상호작용 가능한 가상 환경을 자동 생성한다.

입력·출력 모델

[Character 토큰] + [Environment 토큰] → Genie → Interactive Virtual Environment

Google-IO-2026 현장 데모에서는 물리 테이블 UI 에 두 종류의 토큰을 끼우면 환경이 생성되는 형태로 시연되었다.

추정 위치 (모달리티 통합 스택)

화자(CONNECT-AI-LAB AI 멘토 제이)는 다음 파이프라인을 가설로 제시:

World Model → Image Generation → [[wiki/entities/Gemini-Omni|Omni]] → Genie
              (정적 모달리티)     (멀티모달 통합)  (상호작용 환경)

주요 용도

영역활용
게임 콘텐츠절차적 레벨·맵 자동 생성
VR / XR즉석 가상 공간 구축
AI 에이전트 학습합성 시뮬레이션 환경 무한 공급 (RL 인프라)

가장 큰 임팩트는 에이전트 학습용 합성 환경 공급 이다. 모델 학습에 필요한 환경을 사람이 직접 만들 필요 없이, 모델이 모델 학습 환경을 만드는 자기복제형 RL 파이프라인의 단초가 된다.

의의

  • 자율 에이전트 학습 비용/속도의 병목이 환경 합성 으로 이동.
  • Gemini-Omni 가 입력 모달리티 통합이라면, Genie 는 출력 환경 합성 — 듀얼 방향성.
  • Sora 류 비디오 생성과의 결정적 차이: 상호작용 가능(interactive) 환경.

Genie 3 — 이미지→물리 시뮬레이션 (2026-05-24 데모)

EP.4에서 시연된 Genie 3실내 사진 한 장을 입력하면 물리 법칙이 구현된 3D 인터랙티브 환경을 즉시 생성:

  1. 거실 사진 업로드 → 소파·장애물 인식
  2. 소파를 드래그하면 물리 충돌·이동 반응
  3. Boston Dynamics 로봇 캐릭터를 환경 안에 배치 → 장애물 회피 학습 환경 완성

“엄청난 비용이 들어가는 걸 지금 우리가 이미지로 그냥 환경을 생성해 버린 거예요”

의의: 기존 Unity 기반 시뮬레이션 구축 비용/시간을 이미지 한 장으로 대체. 각 가정의 서로 다른 레이아웃을 AI가 자동으로 시뮬레이션화 가능 → 개인화 로봇 학습 환경 민주화.

출처

관련 노트