네이티브 멀티모달 (Native Multimodal)

텍스트·이미지·비디오·오디오 등 여러 모달리티를 단일 모델이 처음부터 통합 학습하는 AI 아키텍처. 기존의 “여러 AI를 파이프라인으로 연결하는” 방식과 근본적으로 다르다.

핵심 차이

구분연결형 멀티모달네이티브 멀티모달
구조모달별 독립 모델 + 연결단일 통합 모델
맥락 유지연결 지점에서 맥락 손실 위험전체 맥락 일관성 유지
예시이미지 인식 모델 + LLM 연결Gemini-Omni, GPT-4o ([[wiki/entities/openai

특징

  • 물리적 상호 작용(오디오-시각)을 통합 이해
  • 한 번의 추론으로 여러 모달 출력 생성 가능
  • 맥락(컨텍스트) 붕괴 없이 일관된 콘텐츠 생성

대표 모델

관련 개념

  • 월드-모델 — 네이티브 멀티모달의 이론적 기반 중 하나