Gemma 4: Byte for Byte, the Most Capable Open Models

Source: Google Official Blog — Gemma 4 Launch Announcement Type: Blog Article Authors: Clement Farabet, Olivier Lacombe (Google DeepMind) Published: 2026-04-02 Valid as of: 2026-04-02

핵심 Takeaway

  • 4-size model family: E2B (2B effective), E4B (4B), 26B MoE (latency-optimized), 31B Dense (quality-optimized) — all purpose-built for advanced reasoning and agentic workflows (출처: 2026-04-02-gemma-4-open-models)
  • State-of-the-art intelligence-per-parameter: 31B ranks #3 open model globally on Arena AI leaderboard, 26B #6; outcompetes models 20x larger (출처: 2026-04-02-gemma-4-open-models)
  • Native multimodal support: All models process video/images with variable resolution; E2B/E4B add audio input. 256K context window for larger models, 128K for edge models. 140+ language native support (출처: 2026-04-02-gemma-4-open-models)
  • Agentic workflow native features: Function-calling, structured JSON output, native system instructions enabling autonomous agent construction and tool integration (출처: 2026-04-02-gemma-4-open-models)
  • Apache 2.0 commercial permissiveness: Emphasis on developer freedom, digital sovereignty, complete control over data/infrastructure. Contrast to proprietary model restrictions (출처: 2026-04-02-gemma-4-open-models)
  • Edge deployment breakthrough: E2B/E4B run completely offline with near-zero latency on phones, Raspberry Pi, NVIDIA Jetson Orin Nano. Android developers can build agentic flows via AICore Developer Preview (출처: 2026-04-02-gemma-4-open-models)

상세 요약

Gemma 4: 목표 및 배경

Google은 2026년 4월 2일 Gemma 4를 발표했으며, 이는 “가장 지능형 오픈 모델”로 위치 지어진다. Gemma 시리즈는 출시 이래 400M+ 다운로드를 기록했고 100,000개 이상의 변형체(Gemmaverse)를 낳았다. Gemma 4는 이 동력 위에 새로운 수준의 지능-파라미터 효율성을 제공한다.

모델 아키텍처 및 크기

4가지 크기로 출시:

  1. Effective 2B (E2B): 모바일·엣지 우선, 멀티모달 중심
  2. Effective 4B (E4B): E2B의 강화 버전, 음성 입력 지원
  3. 26B Mixture of Experts (MoE): 3.8B 파라미터 활성화, 대기시간 최적화, 높은 처리량
  4. 31B Dense: 원시 품질 최대화, 미세조정의 강력한 기반

모두 Gemini 3과 동일한 기술에 기반하며, 복잡한 논리와 에이전트 워크플로우를 처리한다.

성능 벤치마크

  • 31B: Arena AI 텍스트 리더보드에서 전 세계 #3 오픈 모델
  • 26B: #6 순위
  • 크기 대비 성능에서 20배 더 큰 모델을 능가
  • Gemini 3 기술 기반으로 높은 신뢰성

멀티모달 및 언어 지원

  • 비전: 모든 모델이 가변 해상도 비디오·이미지 처리, OCR·차트 이해 특화
  • 오디오: E2B·E4B는 음성 인식·이해를 위한 네이티브 오디오 입력
  • 컨텍스트 윈도우: 엣지 모델 128K, 대형 모델 256K (저장소·긴 문서 한 프롬프트에 전달 가능)
  • 다국어: 140+ 언어 기본 지원

에이전트 워크플로우 지원

  • 함수 호출(Function-calling): 외부 API 통합
  • 구조화된 JSON 출력: 도구 상호작용 표준화
  • 네이티브 시스템 지시사항: 자율 에이전트 제어
  • 고급 추론: 다단계 계획 및 깊은 논리 능력 강화

엣지 배포 최적화

E2B·E4B는 Android 기기(수십억 대), 노트북 GPU, Raspberry Pi, NVIDIA Jetson Orin Nano에서 완전 오프라인 실행 가능. 근-제로 지연시간. Android 개발자는 AICore Developer Preview에서 에이전트 플로우를 프로토타입하고 Android Studio에서 생산 응용 구축 가능.

라이선싱 및 에코시스템

  • Apache 2.0: 상용 허가 라이선스, 개발자 자유도 강조
  • 다운로드 옵션: Hugging Face, Kaggle, Ollama
  • 통합 도구: Transformers, TRL, vLLM, llama.cpp, MLX, NVIDIA NIM/NeMo, LM Studio, Unsloth 등 day-one 지원
  • 클라우드 배포: Vertex AI, Cloud Run, GKE, TPU 지원

안전성 및 규정준수

  • 동일한 엄격한 인프라 보안 프로토콜 적용 (프로퍼티 모델과 동일)
  • 기업·주권 조직의 신뢰 기반 제공

연결되는 위키 페이지