Codex로 하는 하네스 엔지니어링 실습 — 라이브 요약본

ZeroCho가 openai-codex 데스크탑 앱과 obra-superpowers 스킬을 끼워 ManicTime을 대체할 개인용 시간 관리 데스크탑 앱(Tauri + React + Rust)을 만들어 보면서, harness-engineering의 실제 작동 방식을 시연한다. 핵심 메시지는 “프로젝트마다 하네스가 달라야 한다 — 슈퍼파워스에 프로젝트를 끼워 맞추지 말고, 프로젝트에 맞게 슈퍼파워스를 변형하라”.

핵심 요약

ZeroCho는 한 달 무료 후 유료로 전환되는 시간 관리 앱 ManicTime을, 직접 만들 결심을 한다. 도구는 OpenAI Codex 데스크탑(권한: 자동 검토, 모델: GPT-5.5, 인텔리전스: 중간, 속도형: ON, 컨텍스트 100만 토큰). 빈 폴더에 첫 프롬프트를 던지자마자 obra-superpowers가 자동으로 발동되어 브레인스토밍(PM) → 라이팅 플랜스(개발 팀장) → 서브 에이전트 구현(병렬, 깃 워크트리즈) → 코드 리뷰 → 코드 스타일 리뷰 → 컴파운드 단계 순으로 워크플로우가 흐른다. 그는 슈퍼파워스 마지막 단계에 compound-engineering을 수동으로 끼워 넣어, 실수 내역이 docs/에 누적되고 다음 계획·구현·리뷰 단계에서 같은 실수를 반복하지 않도록 했다. 보안 점검은 gstackCSO(Chief Security Officer) 스킬로 별도 채팅을 띄워 병렬 실행한다. 약 2시간의 라이브 동안 5시간 한도의 14%, 주간 한도의 3%만 소모해 “토큰이 압도적으로 넉넉하다”는 인상을 전한다. 결론: 하네스는 빼고 끼우고 다듬는 변형 가능한 스킬 모음이며, 모델이 똑똑해질수록 “언제든 뺄 준비”를 해야 한다.

IDEAS

  • 하네스 엔지니어링은 AI에 “몸통(harness)을 채워” 결과 품질을 통제하는 작업이다.
  • 잘 쓰는 사람과 못 쓰는 사람의 프롬프트 격차를 줄여 주는 “상한 끌어올림” 스킬이 하네스다.
  • 같은 하네스를 다른 프로젝트에 그대로 가져다 쓰면 안 된다 — 프로젝트마다 새로 짠다.
  • 슈퍼파워스 핵심은 단 하나 — 브레인스토밍 스킬. 개떡 같은 프롬프트를 찰떡으로 바꿔 준다.
  • 코드보다 계획(plan) 단계가 프로그램 만들기에서 가장 중요하다.
  • “스펙(spec)이 단일 진실 원천(SSOT)이다. 코드는 AI가 계속 바꾸니까 믿지 말고 스펙을 믿어라.”
  • 자동 검토(auto-review) 권한 — 위험한 작업만 사람에게 묻고 나머지는 자기가 승인. 기본 권한과 전체 권한 사이의 절충점.
  • 속도형(Fast Mode)은 1.5배 빠르고 2배 토큰을 쓰지만, Codex 한도가 워낙 넉넉해서 항상 켜 둘 만하다.
  • 컨텍스트 한도는 config.json에서 27만2천 → 100만 토큰으로 늘릴 수 있고, 이를 넘으면 토큰 소모가 2배가 된다.
  • AI가 짠 코드는 굳이 안 읽어도 되지만, 기획 문서는 꼼꼼히 읽어야 한다 — 모든 것의 원천이기 때문.
  • 서브 에이전트는 부하 직원이다. 메인이 GPT-5.5면 서브는 보통 GPT-5.4 mini가 붙는다.
  • 서브 에이전트 병렬 실행 시 깃 워크트리즈를 기본으로 써서 같은 파일 충돌을 피한다.
  • 슈퍼파워스는 단순 수정에도 풀 사이클을 돌리므로 작은 수정에는 토큰 낭비. 작은 수정용 경로도 따로 만들어야 한다.
  • 컴파운드 엔지니어링은 리뷰에서 퇴자 맞은 실수를 docs/에 모으고 다음 계획·구현·리뷰에서 참조해 같은 실수를 반복하지 않게 하는 학습 루프다.
  • “랜덤성을 줄이는 것도 하네스 엔지니어링이다.”
  • 컨텍스트 자동 압축 시점에 AI가 가장 멍청해진다 — 그래서 작업 내역을 별도 체크리스트 파일로 보존해야 한다.
  • gstack(G스택)은 역할 놀이 스택이다 — 같은 기획을 PM/디자이너 팀장/CEO/CSO 관점에서 재리뷰시킨다.
  • 보안 점검 스킬(CSO)은 개발자보다 더 꼼꼼히 점검 항목을 추적한다 — 보안에는 토큰을 아끼지 마라.
  • 깃업(GitHub) 링크를 던지고 “네가 설치해”라고 하면 Codex가 알아서 README 따라 설치한다 — 세세한 지시는 불필요.
  • 모델이 발전할수록 하네스는 점점 줄여야 한다. GPT-6이 나오면 슈퍼파워스조차 빼도 될 수 있다.
  • 영상 제작용 하네스는 코딩용 하네스와 달라야 한다. TDD나 코드 리뷰 단계는 필요 없다.
  • 슈퍼파워스, gstack, 컴파운드 엔지니어링의 워크플로우는 결국 같은 단계를 공유한다 — 다른 스택에서 필요한 조각만 뽑아 조립하는 것이 실전 하네스 운영이다.

INSIGHTS

  • 하네스 엔지니어링의 실용적 정의는 “출력 분산을 제거하는 사람-AI 협업 프로토콜”이다. ZeroCho가 강조한 “같은 프롬프트라도 AI마다 결과물이 달라지는 것을 통제한다”는 표현은 harness-engineering의 4단계(CLAUDE.md → Skills → Hooks → Orchestration)를 사용자 관점에서 재서술한 것이다.
  • “스펙이 진실의 원장(SSOT)” 주장은 AI 코딩의 패러다임 전환을 가리킨다. 코드 가독성보다 기획 문서 가독성이 더 큰 ROI를 낸다 — 검토 비용이 코드보다 기획에서 더 크게 절약된다.
  • 컴파운드 엔지니어링은 compounding-artifact와 다른 결의 개념이다. 후자가 “지식 자산의 누적 재사용”이라면, 전자는 “에이전트 실수 내역의 누적 학습 루프”다 — 둘은 같은 원리(누적 → 복리)의 다른 적용층.
  • “프로젝트마다 다른 하네스” 원칙은 표준 패키지(Superpowers, gstack, Oh My Codex)를 부정하지 않는다. 오히려 공통 80%는 패키지로, 마지막 20%는 손으로 끼워 넣어 변형하는 것이 실전 운영의 핵심임을 보여준다.
  • 한도(usage cap)가 압도적으로 넉넉하다는 체감은 사용 패턴을 바꾼다 — “토큰 절약형” 하네스가 아니라 “토큰을 많이 쓰는 안전망(병렬 리뷰, CSO, 풀 사이클)을 켜 두는” 하네스로 무게중심이 이동한다.
  • 보안 점검을 별도 채팅으로 띄워 병렬 실행한다는 패턴은 세션 격리가 하네스 운영의 한 축임을 시사한다 — 컨텍스트 오염을 막는 가장 단순한 방법이 새 채팅이다.

QUOTES

  • “한네스 엔지니어링은 AI에다가 몸통을 채워서지가 마음대로 튀어나가지 못하게 하는 거예요.”
  • “프로젝트마다 한네스가 새로 만들어져야 됩니다.”
  • “코드는 어차피 AI가 자꾸자꾸 바꾸니까 코드를 믿기보다는요 스펙을 믿어라.”
  • “AI가 짠 코드는 굳이 안 읽어도 된다고 이렇게 주장을 하거든요. 요즘은 오히려이 기획 문서는 진짜 꼼꼼하게 읽어 보라고 하고 있습니다.”
  • “슈퍼파워스에 여러분 프로젝트를 끼워 맞추지 마시고 여러분 프로젝트에 맞게 슈퍼파워스도 변형하고.”
  • “기획 단계가 프로그램 만들 때 제일 중요해요.”
  • “토큰이 너무 넉넉해서 그냥 모든 거 다 GPT 5.5가 하라고 해도 돼요.”
  • “AI 코딩하면서 다 느끼시는게 내프롬프트는 너무 허접하다.”
  • “한네스 엔지니어링은 언제든지 뺄 준비를 하셔야 돼요.”
  • “랜덤성을 줄이는 것도 한네스 엔지니어링이라고 볼 수 있어요.”
  • “보안 검사에는 토큰 아끼지 마세요.”
  • “G스택은 저는 그냥 쉽게 역할 놀이라고 불러요.”
  • “메인 에이전트가 서브 에이전트한테 어떤 식으로 명령을 입력하는지 보시면 엄청 구체적이죠. 프롬프트 요렇게 쓰셔야 돼요.”

REFERENCES

[
  {"name": "OpenAI Codex", "type": "tool"},
  {"name": "OpenAI", "type": "org"},
  {"name": "GPT-5.4", "type": "tool"},
  {"name": "GPT-5.4 mini", "type": "tool"},
  {"name": "GPT-5.5", "type": "tool"},
  {"name": "GPT 이미지 2.0", "type": "tool"},
  {"name": "Superpowers (obra)", "type": "tool"},
  {"name": "gstack", "type": "tool"},
  {"name": "Oh My Codex", "type": "tool"},
  {"name": "Compound Engineering", "type": "concept"},
  {"name": "ManicTime", "type": "tool"},
  {"name": "Tauri", "type": "tool"},
  {"name": "React", "type": "tool"},
  {"name": "Rust", "type": "tool"},
  {"name": "Git Worktrees", "type": "concept"},
  {"name": "TDD (Test-Driven Development)", "type": "concept"},
  {"name": "Plan Mode", "type": "concept"},
  {"name": "Single Source of Truth (SSOT)", "type": "concept"},
  {"name": "CSO (Chief Security Officer) Skill", "type": "tool"},
  {"name": "ZeroCho", "type": "person"}
]

FACTS

  • 영상 길이: 25분 47초(1,547초). 채널: ZeroCho TV. 업로드: 2026-05-12.
  • ZeroCho의 주력 언어 스택: JavaScript, TypeScript, Python — 이번 데모는 Rust 기반 Tauri를 시도.
  • Codex 데스크탑 모델 옵션: GPT-5.4 / GPT-5.5(최신).
  • Codex 인텔리전스/에포트 레벨: 매우 높음(품질↑, 속도↓) ↔ 중간(권장 기본값).
  • 속도형(Fast Mode): 처리 속도 1.5배, 토큰 소모 2배(아이콘: 번개 표시).
  • 기본 컨텍스트 27만2,000 토큰 → config.json 수정으로 최대 100만 토큰까지 확장 가능. 27만2,000 초과분은 토큰 2배 소모.
  • 패스트 모드 + 100만 컨텍스트 = 토큰 4배 소모.
  • 권한 3종: 기본 권한 / 자동 검토(신규) / 전체 권한.
  • 2시간 라이브 작업 후 5시간 한도 97% → 83%(14% 사용), 주간 한도 94% → 91%(3% 사용).
  • 서브 에이전트 기본 모델 라우팅: 메인 GPT-5.5 → 서브 GPT-5.4 mini(자동 선택). hierarchical model 등 옵션 미지정 권장.
  • Codex의 스킬 설치 방법: 깃업(GitHub) 링크 전달 → Codex가 README 따라 자동 설치.

HABITS

  • 권한 진화 경로: 기본 권한으로 시작 → 답답하면 자동 검토 → 더 답답하면 전체 권한. 자동 검토를 디폴트로 정착.
  • 첫 프롬프트는 항상 슈퍼파워스 자동 발동 트리거로 작성해 브레인스토밍이 자동 실행되도록 한다.
  • 기획 문서는 반드시 영어 작성 + 한글 번역본 동시 요청 — 본인 가독성 + AI 안정성 동시 확보.
  • 스킬 설치는 GitHub 링크만 던지고 “네가 설치해” — 수동 명령어 입력 X.
  • 보안 점검은 별도 채팅으로 병렬 실행 — CSO 스킬을 새 채팅에서 띄워 코드 리뷰와 분리.
  • 워크트리 정리는 마지막 의례 — 머지 후 임시 워크트리 폴더 청소를 잊지 않는다.
  • 하네스 빼고 넣기 실험: 새 프로젝트 시작 시 기존 하네스 그대로 옮기지 말고 “이번엔 없이 해봐야지” → 안 되면 그때 다시 끼움.

RECOMMENDATIONS

  • Codex 처음 쓰면 권한은 자동 검토, 모델은 GPT-5.5, 속도형 ON, 인텔리전스 중간으로 시작하라.
  • 컨텍스트 한도는 config.json에서 100만으로 늘려라 — Codex 한도가 넉넉해 토큰 4배 소모해도 무방.
  • 슈퍼파워스를 깔되, 마지막에 컴파운드 엔지니어링 단계를 수동으로 끼워 실수 누적 학습 루프를 만들어라.
  • 서브 에이전트 모델은 메인이 자동 선택하게 두라 — subagent model 지정하지 마라.
  • 메인 에이전트가 서브에 보내는 프롬프트를 “심심할 때” 읽어라 — 거의 모범 답안이라 본인 프롬프트 작성 실력이 올라간다.
  • 보안 점검 스킬(CSO 등)을 가능한 많이 깔고 한 번씩 다 돌려라. 보안에는 토큰을 아끼지 마라.
  • AI가 생성한 코드는 흘려보고, 대신 기획 문서를 정성껏 읽고 직접 수정하라.
  • 새 프로젝트 시작 시 항상 “기존 하네스를 빼고 시작”하는 실험을 한 번 해 본다 — 모델이 똑똑해지는 속도를 체감하기 위함.
  • 단순 수정에는 슈퍼파워스 풀 사이클을 끄고 작은 수정용 경로를 따로 만들어 토큰을 아껴라.

관련 노트

원본 transcript

  • 위치: 00-Inbox/youtube/MpeuOAmctAg.ko.vtt (yt-dlp 자동 자막, 한국어)
  • 정제 텍스트: 약 15,113자 (1-shot 추출)