Computer Use

AI 에이전트가 사람처럼 화면·키보드·마우스를 조작하여 일반 데스크톱·모바일 작업을 수행하는 패러다임. 처음에는 Anthropic Claude의 기능으로 알려졌고, 이후 OpenAI Codex 앱에 동명 플러그인으로 탑재되어 멀티디바이스 원격 제어의 기반이 되었다.

정의

Computer Use는 AI 에이전트가 텍스트 기반 도구 호출(tool call)을 넘어, OS 레벨의 화면 인식 + 입력 시뮬레이션으로 임의의 GUI 애플리케이션을 조작하는 기능군이다. 대표 패턴:

  • 화면 스크린샷을 비전 모델로 해석
  • 다음 액션(클릭, 키 입력, 스크롤)을 결정
  • 결과를 다시 캡처하여 루프

Codex 앱의 Computer Use 플러그인

배움의 달인 — Codex 3가지 사랑스러운 기능 영상(2026-05-26)에서 화자는 Codex 앱이 “컴퓨터 유즈라는 플러그인” 을 내장해 있다고 소개한다. 이 플러그인 덕분에:

  • 맥미니에 설치된 Codex 앱을 다른 맥(맥북 프로)에서 원격 폴더로 열어 직접 조작 가능
  • 모바일 ChatGPT 앱의 Codex 섹션에서 같은 작업을 이어가는 멀티디바이스 시나리오
  • Chrome Remote Desktop, VNC 등 OS 표준 원격 제어 도구를 대체

현 시점(2026-05-30) 원격 제어 대상은 macOS 한정 으로 보고됨.

가치

  • 에이전트 도달 범위 확장 — API/CLI 통합이 없는 레거시 앱·웹사이트도 자동화 가능
  • 멀티디바이스 워크플로우 — 화자는 “스마트폰만 들고 다녀도 거의 모든 작업 가능”이라 평가
  • 사람-에이전트 인터페이스 통일 — 사람이 보는 화면 = 에이전트가 보는 화면

한계

  • 비전 인식 정확도와 화면 변경에 대한 견고성
  • 보안: 화면 자체에 노출된 모든 정보(비밀번호, 개인정보 등)가 모델 입력으로 전달됨
  • 속도: 텍스트 도구 호출 대비 느린 루프

관련 개념

관련 엔티티

출처