Gemma 4
Summary
Google DeepMind의 최신 오픈소스 언어 모델 패밀리 (2026년 4월). 4가지 크기 (2B, 4B, 26B, 31B)로 제공되며 고급 추론과 에이전트 워크플로우에 특화. 멀티모달 지원, 확장된 컨텍스트, 상용 가능한 Apache 2.0 라이선스.
Google DeepMind의 최신 오픈소스 언어 모델 패밀리 (2026년 4월). 4가지 크기 (2B, 4B, 26B, 31B)로 제공되며 고급 추론과 에이전트 워크플로우에 특화. 멀티모달 지원, 확장된 컨텍스트, 상용 가능한 Apache 2.0 라이선스.
개요
Gemma 4는 Gemini 3 기술을 기반으로 한 Google의 오픈 언어 모델 패밀리다. 단순 채팅을 넘어 복잡한 논리와 에이전트 워크플로우를 처리하도록 설계되었으며, Gemma 시리즈의 400M+ 다운로드 동력 위에 구축됐다. Gemma 4의 핵심 차별점은 지능-파라미터 효율성으로, 31B 모델은 세계 오픈 모델 리더보드 #3 순위에 올라 있고, 26B 모델도 6에 위치하며 자신보다 20배 큰 모델들을 능가한다 (출처: google-gemma-4-blog-post).
주요 사실
모델 아키텍처
| 모델 | 크기 | 활성 파라미터 | 컨텍스트 | 목표 | 라이센스 |
|---|---|---|---|---|---|
| E2B | 2B | 2B | 128K | 모바일/IoT | Apache 2.0 |
| E4B | 4B | 4B | 128K | 모바일/IoT | Apache 2.0 |
| 26B MoE | 26B | 3.8B | 256K | 레이턴시 최적화 | Apache 2.0 |
| 31B Dense | 31B | 31B | 256K | 품질 최대화 | Apache 2.0 |
성능 및 벤치마크
-
Arena AI Leaderboard (2026-04-02 기준):
- 31B Dense: #3 오픈 모델 (전 세계)
- 26B MoE: #6 오픈 모델
- 20배 큰 모델 능가 (크기 대비 지능)
-
고급 추론: 다단계 계획, 깊은 논리, 수학·명령어 따르기 벤치마크 개선
-
코드 생성: 오프라인 고품질 코드 지원
멀티모달 능력
- 비전: 모든 모델이 가변 해상도 비디오/이미지 처리, OCR, 차트 이해
- 오디오: E2B, E4B가 음성 인식/이해 지원
- 언어: 140+ 언어 기본 지원
- 컨텍스트: 128K (엣지) ~ 256K (대형 모델) 토큰
에이전트 워크플로우 지원
- 함수 호출 (Function-calling): 외부 도구/API 통합
- 구조화된 JSON 출력: 도구 상호작용 표준화
- 네이티브 시스템 지시사항: 자율 에이전트 제어
- 이를 통해 도구와 상호작용하고 워크플로우를 신뢰성 있게 실행할 수 있는 자율 에이전트 구축 가능
배포 옵션
클라우드 배포:
- Google AI Studio (31B, 26B MoE)
- Vertex AI, Cloud Run, GKE, Cloud TPU
- Google Colab, gaming GPU
엣지/로컬 배포:
- Android (AICore Developer Preview, Android Studio Agent Mode)
- Raspberry Pi, NVIDIA Jetson Orin Nano
- 노트북 GPU (양자화 버전)
- 단일 H100 GPU (80GB, 비양자화 bfloat16)
프레임워크 지원 (Day-1):
- Hugging Face (Transformers, TRL, Transformers.js)
- vLLM, llama.cpp, LiteRT-LM
- MLX, Ollama, NVIDIA NIM/NeMo
- LM Studio, Unsloth, SGLang, Docker
다운로드: Hugging Face, Kaggle, Ollama
라이선싱
- Apache 2.0: 상용 허가 (commercially permissive)
- 강조: 개발자 자유도, 디지털 주권, 데이터/인프라/모델 완전 제어
- 온프레미스·클라우드 환경 모두 배포 가능
에이전트 학교 실제 벤치마크 (2026-04-20 기준)
CONNECT AI LAB의 “에이전트 유니버스” 플랫폼에서 로컬 에이전트 성능을 측정한 결과:
| 모델 | 벤치마크 점수 | 비고 |
|---|---|---|
| E2B | 35점 | 브레인팩 주입 전 기본 성능 |
| E4B | 62.5점 | 브레인팩 주입 후 +80% 향상 |
E2B는 경량이지만 Gemma 3 Flash 수준의 성능을 보이며, 지식 주입(브레인팩) 이후 실용적 에이전트 운영이 가능함을 실증 (출처: yt-connect-ai-lab-ai-agent-school-2026).
안전성 및 규정준수
- 프로퍼티 모델과 동일한 인프라 보안 프로토콜 적용
- 기업·주권 조직의 신뢰 기반 제공
- on-device 실행 시 오프라인 안전성 (로그 전송 없음)
관련 개념
- agentic-ai-patterns — Gemma 4의 함수 호출·시스템 지시사항이 구현하는 에이전트 패턴
- llmops-lifecycle-and-stack — 모델 배포 및 운영 (Vertex AI, Cloud Run, GKE)
- ai-governance-and-compliance — Apache 2.0 라이선싱, on-device 안전성, 규정준수
관련 엔티티
- agentic-ai-frameworks — Agentic AI 구축 시 오픈소스 모델 선택지로서 Gemma 4의 위치
- recommendation-algorithms — 추천 시스템 구축 시 Gemma 4 활용 가능성 (멀티모달·함수호출)
소스
- google-gemma-4-blog-post — Google 공식 블로그 발표 (2026-04-02)