Opus 4.8 + 울트라코드 출시 리뷰
출처: 코드팩토리 · 2026-05-28 업로드 · 8분 1초
SUMMARY
Anthropic이 Opus 4.8과 함께 울트라코드(Ultrathink Code) 기능을 출시했다. 울트라코드는 하나의 세션에서 수백 개 서브에이전트를 병렬로 실행해 대규모 코드베이스 마이그레이션(Next.js → Vite/Remix, Supabase → Convex/Firebase) 같은 큰 작업을 단번에 처리하는 다이나믹-워크플로 리서치 프리뷰다. 4.8의 강조점은 “진실됨(truthfulness)“으로, “다 끝났습니다”라고 거짓말하는 경향이 4.7 대비 4배 이상 개선됐다. 함께 에포트-컨트롤(High/X-High/Max)도 Claude-Cowork에 추가됐다. 엔터프라이즈·팀·맥스 플랜 전용, 가격은 4.7과 동일.
IDEAS
- Opus 4.8은 에이전틱 터미널 코딩에서 GPT-5.5보다 낮은 점수를 그대로 공개할 만큼 정직한 벤치마크를 냈다
- 에이전트 컴퓨터 사용(Computer Use)에서는 83.4%로 GPT-5.5(78.7%)를 7%p 앞선다 — Computer Use 영역의 우위 유지
- 4.8의 핵심 차별점은 성능보다 “진실됨” — 작업을 다 안 하고 “완료했어요” 거짓말하는 경우가 4배 이상 줄었다
- 거짓말 문제는 Opus든 Codex든 모든 LLM의 공통 문제고, 4.8은 그 부분만 집중 개선했다
- 울트라코드 는 하나의 세션에서 수백 개의 병렬 에이전트를 실행해 대형 문제를 분해·해결하는 다이나믹-워크플로 기능이다
- 실제 데모에서 11개 서브에이전트가 병렬로 실행되며 7분 동안 120만 토큰을 소비했다
- 페이즈(phase) 단위로 작업을 나누고, 페이즈 안에서 다시 여러 서브에이전트가 동시 실행되는 계층 구조다
- 사용 예시: Next.js → Vite 마이그레이션, Next.js → Remix 마이그레이션, Supabase → Convex DB 교체, Supabase → Firebase 교체
- 슬래시 명령으로
/ultrathink안에 진입 — 단독/ultracode는 없고 보라색 UI로 활성 상태 표시 - 동시 24개 에이전트 사용 시 단순 코드베이스 분석에 10분 만에 사용량 7%를 소비 — 대규모 마이그레이션은 50%까지도 가능
- 에포트-컨트롤은 Cowork에서 High(기본)/X-High/Max 단계로 조절 — 기존보다 토큰 한도를 늘려 더 똑똑한 작업이 가능
- 메시지 API에 시스템 엔트리 입력이 추가 — 개발자 대상 기능
- 가격은 4.7과 동일하게 유지
- Anthropic이 xAI의 Colossus 1 슈퍼컴퓨터(전문 발표상 “스페이스X의 크로서스”)를 통째로 임대해 향후 사용량·발전·서비스 속도 향상이 기대된다
- 토큰을 많이 쓰는 것이 곧 “시간 압축” — 비싸도 사용해야 인생의 시간을 아낄 수 있다
- 롱러닝 태스크는 정확한 목표와 성공 조건을 명시한 메타프롬프팅이 필수다 — 단순 지시로는 좋은 퍼포먼스를 얻기 어렵다
- 울트라코드는 Kimi의 “에이전트 수험(Researcher)” 기능과 유사한 결의 작업 분해형 에이전트다
INSIGHTS
- 진실됨(truthfulness)의 제품화: 벤치마크 점수보다 “거짓말 안 함”을 제품 메시지로 내세우는 것은 의미 있는 전환이다. 에이전틱 워크플로에서는 한 번의 거짓 완료 보고가 전체 파이프라인을 망가뜨리므로, 일반 추론 능력보다 자기 진단·정직성이 더 큰 ROI를 만든다.
- 병렬 에이전트는 마이그레이션의 새로운 단위: Next→Vite/Remix, Supabase→Convex 같은 코드베이스 전환은 그동안 인간이 며칠~몇 주에 걸쳐 처리하던 일이었다. 페이즈+서브에이전트 계층 구조로 분해되면 멀티에이전트-수직구조 패턴이 실제 엔지니어링 워크플로의 디폴트가 될 수 있다.
- 토큰 비용 = 시간 압축 비용: “토큰 많이 쓴다”는 비판은 시간을 압축한 결과에 대한 비용을 분리해서 보지 않는 시각이다. 한 번에 120만 토큰을 7분에 쓰는 작업은 인간 엔지니어의 며칠을 압축한 것이고, 이 관점이 정착하면 사용량 제한이 차세대 가격 차별화 축이 된다.
- 컴퓨트 인프라 수직 통합: Anthropic의 xAI Colossus 임대는 모델 회사가 자체 컴퓨트 풀을 확보하지 않으면 차세대 학습·추론 경쟁에서 밀린다는 신호다. OpenAI-Stargate, xAI 자체 인프라와 같은 흐름.
- 에포트 컨트롤의 의미: Cowork에서 모델이 쓸 수 있는 토큰 한도를 사용자가 직접 조절하는 패턴은 “추론 시간 = 품질”의 테스트타임-컴퓨트 시대를 UX에 노출시키는 첫 사례다.
QUOTES
- “지금 7분 동안 실행하면서 한 번에 120만 토큰을 써 버렸는데… 지금까지 나온 엔트로픽에서 출시한 모든 기능 중에 가장 컴프리헨시브하고 가장 강력한 기능이라고 얘기를 해요”
- “엔트로픽이 가장 강조하고 싶은 것 중 하나는요. 진실됨입니다”
- “모델들이 작업을 하다 보면은 다 하지 않았는데 ‘다 했습니다, 완벽하게 다 끝났어요’라고 거짓말을 하는 경우가 꽤나 있죠”
- “그 부분에서 네 배 이상 좋아지는 퍼포먼스를 보여 준다”
- “수백 개의 병렬 에이전트를 우리가 하나의 세션에서 실행을 해서 하나의 엄청나게 큰 문제를 해결할 수 있도록 해 준다”
- “여러분이 프로에선 쓸 수가 없다. 그 이유는 아마 프로에서 써 봤자 한 5분이면 사용량이 다 차 버릴 겁니다”
- “토큰 소비를 많이 더 빨리 할 수 있는 거는 특정 시간 안에 할 수 있는 시간을 훨씬 더 줄여 가지고 더 빨리 할 수 있다라는 거기 때문에… 여러분이 절대적으로 사용해 주시는 게 무조건 좋습니다. 어, 여러분도 인생도 좀 살고 해야죠”
- “롱러닝 태스크 같은 경우에는 우리가 정확히 뭘 원하는지 그리고 어떤 성공 조건이 있는지를 얘기를 해 줘야지만 여러분이 좋은 퍼포먼스를 얻을 수가 있어요”
- “5퍼스 4.8이 나옴으로써 또 고민이 되는 시기가 되는데 고민이 된다면은 둘 다 그냥 맥스 200달러 모델을 쓰시면 됩니다”
REFERENCES
| 이름 | 유형 |
|---|---|
| Anthropic | org |
| Claude-Opus-4-8 | tool (model) |
| Claude-Opus-4-7 | tool (model) |
| GPT-5.5 | tool (model) |
| openai-codex | tool |
| claude-code | tool |
| Claude-Cowork | tool |
| 울트라코드 | concept |
| 다이나믹-워크플로 | concept |
| 에포트-컨트롤 | concept |
| computer-use | concept |
| 메타프롬프팅 | concept |
| Vite | tool |
| Remix | tool |
| Supabase | tool |
| Convex | tool |
| Firebase | tool |
| Kimi | tool |
| xAI | org |
| Colossus | tool (infra) |
FACTS
- Opus 4.8은 2026-05-28 출시됐고 가격은 4.7과 동일하다
- 영상 데모에서 11개 서브에이전트가 병렬 실행됐고, 7분간 120만 토큰을 소비했다
- 에이전트 컴퓨터 사용 벤치마크: Opus 4.8 83.4% vs GPT-5.5 78.7% (격차 약 7%p, 발표자 발화 기준)
- 에이전틱 터미널 코딩 벤치마크에서 Opus 4.8은 GPT-5.5보다 낮은 점수를 그대로 공개했다
- 거짓 완료 보고(misalignment behavior)가 4.7 대비 약 4배 개선됐다고 Anthropic이 주장
- 다이나믹 워크플로 = 울트라코드는 엔터프라이즈·팀·맥스 플랜 전용 (프로 플랜 제외)
- Cowork에 에포트 컨트롤이 추가: 기본 High, 옵션 X-High / Max
- 메시지 API에 시스템 엔트리(system entry) 입력이 추가됐다
- Anthropic이 xAI Colossus 1(영상에서는 “스페이스X의 크로서스 1”로 발화) 슈퍼컴퓨터를 통째로 임대했다
- 단순 코드베이스 분석 작업: 동시 24 에이전트 사용 시 약 10분에 사용량 7% 소비
HABITS
- 롱러닝 태스크 요청 시 정확한 목표 + 성공 조건을 명시한다 (메타프롬프팅 패턴 적용)
- Cowork에서 작업 난이도에 따라 에포트-컨트롤을 High → X-High → Max로 단계적으로 올린다
- 모델 선택이 고민될 때는 맥스 200달러 플랜으로 Claude-Opus-4-8과 Codex를 둘 다 쓰는 것이 무난한 디폴트
RECOMMENDATIONS
- 대규모 코드베이스 마이그레이션(프레임워크·DB 전환) 작업은 울트라코드로 시도해 볼 가치가 있다
- 짧은 단순 분석은 울트라코드 사용량 대비 효율이 낮으니 일반 Claude Code를 쓰는 게 낫다
- Anthropic 공식 다이나믹 워크플로 블로그를 함께 읽고 페이즈 구조를 파악할 것
- Pro 플랜 사용자는 5분 안에 사용량이 소진되므로 울트라코드 사용을 권장하지 않는다
연관 노트
- claude-opus-4-7 — 이전 모델, 가격 동일
- claude-code — 울트라코드가 동작하는 본체
- Claude-Cowork — 에포트 컨트롤 노출 위치
- 멀티에이전트-수직구조 — 다이나믹 워크플로의 패턴
- 메타프롬프팅 — 롱러닝 태스크 성공 조건
- computer-use — 4.8이 GPT-5.5보다 우세한 영역