사람용 CLI는 에이전트에게 안 통한다 — 에이전트 네이티브 도구

어떤 문제인가

CLI는 지난 40년 동안 단 하나의 사용자를 위해 설계됐다 — 사람. ls, git, docker, kubectl 어느 것을 보든 전제가 같다. 사람이 화면을 읽고, 키를 누르고, 진행 막대를 보며 기다리고, “정말 삭제할까요? (y/N)” 같은 프롬프트에 답한다. 이 전제가 출력 형식에도 그대로 배어 있다. 색깔 입힌 표, ASCII 박스, 사람 보라고 stdout에 섞어 쏟는 안내문과 경고. 사람에겐 친절한 이 모든 게, 에이전트에겐 그냥 노이즈다. 이제 그 CLI를 두드리는 주체가 빠르게 사람에서 LLM 에이전트로 넘어가고 있다는 게 문제의 본질이다. 에이전트는 멈춰 선 대화형 프롬프트에 키를 누를 수 없다. 데이터와 안내문이 한 스트림에 섞인 출력을 파싱하려고 비싼 토큰을 태운다. 색깔 코드와 박스 그림을 의미 있는 정보로 착각하다 헷갈린다. 레거시 도구는 에이전트가 쓰라고 만든 게 아니라, 사람이 쓰라고 만든 것이다. 둘 사이의 간극이 지금 수만 개 도구에 걸쳐 동시에 벌어지고 있다.

왜 지금인가

방아쇠를 당긴 건 허깅페이스다. 이들은 hf CLI를 ‘에이전트 최적화’ 관점에서 통째로 다시 설계했다. 핵심 원칙은 단순하다. 안내·경고·에러는 stderr로 보내 에이전트가 파싱하는 stdout을 오염시키지 않고, CLI는 에이전트가 누를 수 없는 키를 기다리며 멈추지 않으며, 파괴적 명령은 에이전트 모드에서 즉시 실패하되 고치는 법을 메시지에 담는다. 결과는 토큰 1.3~1.8배, 경우에 따라 최대 6배 절감이다. 토큰이 곧 비용이자 지연시간인 에이전트 시대에 이건 작은 숫자가 아니다. 그리고 이건 한 회사의 실험이 아니다. 허깅페이스는 2026년 4월부터 코딩 에이전트의 허브 사용을 추적하기 시작했는데, 클로드 코드 하나만 약 4만 사용자에 4,900만 건에 가까운 요청을 냈고 Codex가 바짝 뒤따른다. MCP 서버는 2026년 5월 기준 1만 4천 개를 넘겼고 SDK 누적 다운로드는 9,700만을 돌파했다. 즉, 도구를 호출하는 주체가 사람에서 에이전트로 넘어가는 전환이 이미 대규모로 진행 중이다. 그런데 정작 수만 개의 레거시 CLI는 여전히 사람을 위한 출력을 토해 낸다. 표준이 깔리고 수요가 폭발했는데 공급은 비어 있는, 전형적인 시장 공백이다.

어떻게 만들 수 있나

진입로는 세 갈래다. 첫째, 에이전트 네이티브 래퍼. 인기 있는 레거시 CLI를 감싸 stdout은 깨끗한 JSON으로, 부가 정보는 stderr로 분리하고, 대화형 프롬프트를 자동으로 건너뛰는 어댑터를 만든다. 둘째, 레거시 도구용 MCP 서버. 단순 CLI 래핑을 넘어, 도구의 기능을 에이전트가 의도로 호출할 수 있는 MCP 인터페이스로 노출한다. 다만 시장은 이미 얄팍한 커뮤니티 래퍼에서 ‘제대로 만든 전용 서버’로 옮겨가는 중이라, 차별점은 신뢰성과 범위 설계에 있다. 셋째, 에이전트 CLI 관측 계층. 어떤 에이전트가 어떤 명령을 얼마나 많은 토큰으로 호출했고, 어디서 실패했고, 무엇을 낭비했는지를 보여 주는 관측·분석 도구다. FAANG급 기업이든 YC 초기 스타트업이든, 에이전트에 도구를 붙이는 모든 팀이 곧 “우리 에이전트가 CLI를 얼마나 비효율적으로 쓰고 있나”를 묻게 된다. 수익은 두 면으로 건다 — 도구 제공자 쪽(에이전트 친화 변환·인증 배지의 B2B 과금)과 에이전트 개발자 쪽(관측·분석 구독). 처음부터 모든 도구를 노리지 말고, 한 수직 영역(예: 데이터 엔지니어링 CLI나 클라우드 인프라 도구)에서 에이전트 친화도를 압도적으로 끌어올려 그 자리의 표준이 되는 게 현실적이다.

flowchart LR
  A[LLM Agent] -->|"calls"| B[Legacy CLI<br/>human-oriented output]
  B -.->|"noisy, token-heavy"| A
  A -->|"calls"| C[Agent-Native Wrapper]
  C -->|"clean stdout JSON<br/>guidance to stderr"| A
  C --> D[Observability Layer<br/>token + failure metrics]
  D -->|"feedback"| E[Tool Provider]

성공 조건

이 시장은 ‘표준에 얼마나 빨리 올라타느냐’와 ‘한 수직을 얼마나 깊이 파느냐’에서 갈린다. 첫째, 에이전트 환경 변수 감지처럼 사실상의 규약(CLAUDECODE, AI_AGENT 등)을 정확히 따라야 에이전트가 자동으로 모드를 전환한다. 표준을 무시하면 어댑터가 겉돈다. 둘째, 신뢰가 곧 해자다. 에이전트가 파괴적 명령을 잘못 실행하면 사람보다 빠르고 조용하게 사고를 낸다. ‘에이전트 모드에서 즉시 실패’처럼 안전 설계를 기본값으로 박은 도구가 도입처의 신뢰를 얻는다. 셋째, 관측 계층은 데이터 락인이 핵심이다. 에이전트의 CLI 사용 패턴이 쌓일수록 추천·자동 최적화 정확도가 올라가고, 그게 후발 주자가 못 따라오는 격차가 된다. 너무 일찍 모든 도구로 넓히려다 어느 것도 제대로 못 감싸는 게 가장 흔한 실패다.