Gemini Omni! 영상계의 나노 바나나, 제가 써봤습니다

코드팩토리 | 2026-05-20 | 8분 26초 | 원본 영상

요약

Gemini-Omni 실사용 리뷰. Gemini 챗 + Google-Flow (Ultra 플랜) 두 경로로 4개 시나리오를 테스트한 결과, 구글 프로모션과 달리 원본 요소(오피스 가구·옷·책장 등)가 통째로 재구성되는 한계를 확인. “이 아이템은 그대로 두라”는 명시적 제약도 무시되며, 신규 서비스 트래픽으로 이터레이션 비용이 큰 상태. 단, 부분 요소 제거(브이로그 객체 삭제)와 AI-UGC 광고 영역에서는 활용 가능성 시사.

IDEAS

  • Gemini-OmniGoogle-IO-2026 발표 직후 Gemini 챗과 Google-Flow (Ultra 플랜 한정)에서 접근 가능
  • 단순 텍스트 프롬프트만으로 영상 배경·요소 변경을 시도할 수 있지만 의도하지 않은 요소까지 함께 변형됨
  • 영상 분석 → 인물·아이템·구도 파악 → 재구성 방식으로 작동하는 것으로 추정 (입력을 reconstruct)
  • Nano-Banana처럼 프레임 단위로 재생성한 결과를 연속 재생하는 구조일 가능성
  • “이 아이템들은 그대로 두라”는 익스플리시트한 제약을 명시해도 무시되는 경우가 많음
  • 멀티 세그먼트(여러 배경을 2.5초씩 4개) 시 일부 테마만 반영, 원본 객체 보존 실패
  • Google-Flow에서 레퍼런스 배경을 함께 넣어도 의도와 달리 전체가 바뀜
  • 동일 프롬프트로 두 번째 generation이 첫 번째보다 자연스러운 경향
  • 바닥(floor) 처리가 불안정 — 어떤 때는 유지, 어떤 때는 “시장 바닥”으로 교체
  • 신규 서비스 출시 직후로 서버가 매우 느려 이터레이션 실험이 제한됨
  • 단순 요소 제거(브이로그에서 특정 객체 삭제) 용도로는 영상 편집툴보다 효율적일 가능성
  • AI-UGC 광고 영역에 활용 가능성 — 인플루언서 계약 대비 저비용
  • 프로모션의 “딸각 한 번에 원하는 결과” 수준에는 미달
  • 결과 안정성이 부족 — 이터레이션 + 프롬프트 기법 학습이 필요한 단계

INSIGHTS

  • 보존 vs 변형의 제어 난점: 영상 생성 모델이 입력을 reconstruct하는 구조라면 “어떤 요소를 그대로 두고, 어떤 요소를 바꾸라”는 동시 제어가 본질적으로 어렵다. 마스킹·세그멘테이션 기반 편집 모델과의 갭이 여기서 발생한다.
  • 마케팅 데모와 실제 사용자 경험의 갭: 신기능 출시 직후 데모는 cherry-pick 경향이 크다 — 실제 워크플로우 테스트로 한계를 확인하는 단계가 필요하다.
  • 자기 해석으로 덮어쓰는 LLM 영상 모델: 명시적 제약(constraints)을 프롬프트에 명시해도 모델이 자기 판단으로 덮어쓰는 행동은 텍스트 LLM의 환각/지시 위반 패턴이 영상 도메인으로 확장된 모습.
  • 초기 안정화 단계의 이터레이션 비용: 새 서비스의 첫 며칠은 서버 지연 + 결과 변동성 + 프롬프트 노하우 부족이 겹쳐 활용 가치를 잠식한다.
  • 영상 AI의 실용적 진입점은 “부분 수정”: 처음부터 끝까지 생성보다, 기존 영상의 특정 요소 제거·교체가 우선 commercially viable한 영역.
  • AI-UGC 광고가 첫 수익 자리: 인플루언서 계약 대안 — 저비용·다량 생성이 가능한 도메인부터 영상 AI가 정착할 가능성.

QUOTES

“원래 있었던 요소들을 그대로 가져가지는 못했다.”

“그냥 대강적으로 한 줄만 써도 배경이 잘 바뀌는 것처럼 했으니까.”

“이게 아직 제대로 그니까 오늘 나온이 기능들이 조금 안정적이지는 않아요.”

“이 정도는 사실 우리가 몇 번 이터레이션 하면은 그러면 우리가 충분히 변경할 수 있는 요소인 거 같아요.”

“프로모션에서 봤던 것처럼 진짜 딸각으로 그냥 우리가 원하는 대로 한 번에 나오는 느낌까지는 아니다.”

“인플루언서 뭐 계약하고서 하는 것보다 그냥 돈 내고서 내가 만들어 가지고 광고 태우고 싶다라고 하면은 조금 유용할 수도 있지 않을까.”

REFERENCES

  • Gemini-Omni — 구글 신규 영상 생성 모델 (리뷰 대상)
  • Google-Flow — Ultra 플랜에서 사용 가능한 영상 생성 도구
  • Gemini — 챗 인터페이스에서도 옴니 사용 가능
  • Nano-Banana — 비교 레퍼런스 (프레임 단위 재생성 구조 추정의 근거)
  • Google-IO-2026 — 발표 행사
  • 코드팩토리 — 리뷰어/채널
  • 귀멸의 칼날 / 탄지로 — 멀티 세그먼트 테마 테스트에 사용된 IP
  • AI-UGC — 영상 AI의 첫 수익 영역 후보

FACTS

  • 영상 길이: 8분 26초 (506초)
  • 업로드: 2026-05-20 (Google I/O 2026 직후)
  • 멀티 세그먼트 영상에서 각 2.5초씩 4개 배경 설정 가능
  • 발표 당시 서버 응답 시간이 평소보다 매우 느린 상태
  • Gemini Ultra 플랜은 Google-Flow 도구 사용 권한 포함
  • 4가지 시나리오 테스트: ①오피스 스냅→애니메이션, ②책 인증샷 + “앙기모링”, ③귀멸의 칼날 멀티 배경 운동 영상, ④타자 치는 척 → 키보드 합성

RECOMMENDATIONS

  • 마케팅 영상보다 자기 워크플로우의 실제 영상으로 한계를 확인하라
  • 안정성 부족 단계에서는 이터레이션 + 프롬프트 정교화 비용을 사전 견적하라
  • AI-UGC 광고 자동 생성처럼 저비용·다량 생성 영역부터 적용을 시도하라
  • 영상 전체 생성 대신 부분 수정(특정 요소 제거)을 우선 사용처로 검토하라

관련