Qwen (Alibaba Cloud)
Summary
Alibaba Cloud 산하 Qwen 팀이 개발·공개하는 오픈 웨이트 LLM 패밀리. 코딩·추론 벤치마크에서 꾸준히 상위권을 유지하며, 2026년 기준 로컬 소비자 하드웨어에서 실행 가능한 수준의 플래그십 코딩 성능을 달성한 대표 오픈소스 계열.
Alibaba Cloud 산하 Qwen 팀이 개발·공개하는 오픈 웨이트 LLM 패밀리. 코딩·추론 벤치마크에서 꾸준히 상위권을 유지하며, 2026년 기준 로컬 소비자 하드웨어에서 실행 가능한 수준의 플래그십 코딩 성능을 달성한 대표 오픈소스 계열.
개요
Qwen은 Alibaba Cloud가 제공하는 LLM 모델 패밀리로, dense 및 MoE(Mixture of Experts) 아키텍처로 다양한 크기를 커버한다. 2026년 초 기준 SWE-Bench 코딩 벤치마크 73.4%로 오픈 웨이트 모델 최고 수준을 기록했으며(출처: simon-willison-qwen-beats-opus), 이후 Qwen3.6-27B dense 모델이 이전 플래그십 대비 15× 크기 압축 + 성능 향상을 달성했다(출처: simon-willison-qwen36-27b).
simon-willison의 “pelican benchmark”(SVG 자전거 타는 펠리컨 생성) 실험을 통해 두 차례 로컬 테스트가 공개됐다 — 4/16 Qwen3.6-35B-A3B, 4/22 Qwen3.6-27B.
주요 모델
| 모델 | 아키텍처 | 전체 크기 | GGUF Q4_K_M | 비고 |
|---|---|---|---|---|
| Qwen3.5-397B-A17B | MoE (17B active) | 807GB | — | 이전 오픈소스 플래그십 |
| Qwen3.6-35B-A3B | MoE (3B active) | ~21GB | ~21GB | 2026-04-16 Simon Willison 테스트 |
| Qwen3.6-27B | Dense | 55.6GB | 16.8GB | 2026-04-22 Simon Willison 테스트; Qwen3.5-397B 능가 |
| Qwen3.5-35B | Dense | — | — | LLM-as-Judge 평가(ASR)에서 GPT-4.1과 92-94% 일치 |
주요 사실
- 2026-04-16: Qwen3.6-35B-A3B (로컬 MacBook M5, ~21GB) 가 Claude Opus 4.7 (클라우드) 보다 나은 펠리컨 SVG 생성 — SWE-Bench 73.4% (오픈 웨이트 최고) (출처: simon-willison-qwen-beats-opus)
- 2026-04-22: Qwen3.6-27B dense (Q4_K_M 16.8GB) 가 Qwen3.5-397B-A17B (807GB) 전 코딩 벤치마크 능가 — 약 15× 크기 압축 + 성능 향상 (출처: simon-willison-qwen36-27b)
- 2026-04-22:
brew install llama.cpp+-hf unsloth/Qwen3.6-27B-GGUF:Q4_K_M로 소비자 MacBook 에서 ~25-27 tokens/s 생성 속도 달성 (출처: simon-willison-qwen36-27b) - Qwen3.5-35B: LLM-as-Judge 평가에서 GPT-4.1과 함께 ASR 평가 92-94% 인간 일치율 달성 (출처: llm-asr-evaluation-2026)
Key Insight
Qwen3.6-27B는 “Dense가 MoE를 압도할 수 있다”는 실증 사례다. 807GB MoE 대신 16.8GB dense GGUF로 더 나은 코딩 성능을 얻을 수 있다는 점은 로컬 AI 인프라 설계에 직접적 시사점을 준다 (2026-04-22 기준).
코딩 에이전트 실용 가이드 (Ollama 로컬 실행, valid_as_of 2026-01-09)
Qwen2.5-Coder vs Qwen3-Coder 선택 기준:
- 8–16GB MacBook → Qwen2.5-Coder (0.5B–7B, 32K 컨텍스트) 유일한 선택
- 32GB+ MacBook → Qwen3-Coder:30b 권장 (256K 컨텍스트, MoE 효율)
- Qwen2.5-Coder-7B: HumanEval 84–88%, 33B급 모델과 유사 성능
oh-my-opencode 에이전트 활용: Sisyphus/Oracle → 30b, Librarian/Explore → 8b 구분 권장.
관련 개념
- auto-research — Qwen3.5-35B 기반 LLM-as-Judge가 Auto Research 루프의 자동 평가 단계 근거로 인용
관련 엔티티
- simon-willison — 주요 로컬 테스트 수행자 (2026-04-16, 2026-04-22)
- anthropic — Claude Opus 4.7과 비교 대상 (2026-04-16 기준)
소스
- simon-willison-qwen-beats-opus (2026-04-16)
- simon-willison-qwen36-27b (2026-04-22)
- llm-asr-evaluation-2026 (2026-04-23)