AI가 일을 돕는지 망치는지, 작업 단위로 재는 도구가 없다

어떤 문제인가

AI 도입은 전사 차원의 결정으로 내려오지만, 그 효과는 작업 한 칸 단위로 갈린다. 같은 모델이 견적 초안에선 사람보다 빠르고 정확한데, 바로 옆 예외 처리 단계에선 미묘한 신호를 놓쳐 품질을 무너뜨린다. 문제는 대부분의 회사가 이걸 구분해 보지 못한다는 것이다. 도입 전후의 인건비 절감만 대시보드에 뜨고, 정작 어느 작업에서 AI가 가치를 더하고 어느 작업에서 빼는지는 측정되지 않는다. 포드는 그 차이를 모른 채 베테랑을 내보냈다가 자동화가 놓친 결함을 리콜과 재고용으로 메웠다. 보이지 않는 비용은 늘 가장자리에서, 한참 뒤에 청구된다.

왜 지금인가

AI 대체의 실패담이 본격적으로 쌓이는 국면이다. 포드 같은 대기업조차 자동화를 되돌렸다는 사실이 알려지면서, ‘어디까지 자동화해야 하나’가 도입 기업 공통의 질문이 됐다. 한쪽에선 비용 압박과 저렴해진 AI 도구가 자동화를 가속하고, 다른 쪽에선 과잉 자동화의 청구서가 날아온다. 이 사이를 메울 계측 레이어가 비어 있다. EU AI법이 고위험 영역에 사람 감독을 요구하기 시작하면서, 휴먼인더루프는 선택이 아니라 규제 요건이 됐다. 압력은 손익과 규제 양쪽에서 동시에 온다.

어떻게 만들 수 있나

세 모듈로 쪼갠다.

첫째, 작업 단위 계측. 운영·CS·QA 같은 워크플로를 단계로 분해하고, 각 단계에서 AI가 처리한 건과 사람이 처리한 건의 정확도·재작업률·소요시간을 나란히 잰다. ‘이 작업에서 AI가 정확도를 3%p 올린다, 저 작업에선 8%p 떨어뜨린다’를 숫자로 보여 준다.

둘째, 증강 ROI 맵. 계측 결과를 자동화 적합도 지도로 환산한다. 자동화하면 이득인 구간, 사람을 남겨야 하는 구간, AI가 사람을 보조만 해야 하는 구간을 색으로 가른다. 단순 비용 절감이 아니라 품질을 반영한 순가치로 의사결정을 바꾼다.

셋째, 휴먼인더루프 가드레일. 위험 구간에선 AI 출력이 자동 통과하지 못하도록 사람 검수를 강제하고, 모델 정확도가 드리프트로 떨어지면 자동화 비중을 되돌리는 안전장치를 건다.

flowchart LR
  W[워크플로 로그] --> M[작업 단위 계측]
  M --> R[증강 ROI 맵]
  R --> D{자동화 적합도}
  D -->|이득| A[AI 자동화]
  D -->|위험| H[휴먼인더루프 가드레일]
  H --> F[드리프트 시 롤백]

진입점은 자동화로 한 번 데인 팀이다. CS·QA처럼 자동화가 빠르게 들어갔지만 품질 불만이 쌓인 워크플로를 첫 고객으로 잡고, ‘어디서 AI가 망치는지’를 진단해 준다. 과금은 워크플로 수 기반 SaaS 구독에 더해, 가드레일 운영 단계로 확장한다.

성공 조건

세 가지가 생사를 가른다. 첫째, 계측의 신뢰성. ‘AI가 이 작업을 망친다’는 진단이 통계적으로 단단해야 현업이 자동화를 되돌린다. 표본이 흔들리면 아무도 안 믿는다. 둘째, 워크플로 접근. 고객 시스템의 로그를 안전하게 끌어와 단계별로 매핑하는 통합 능력이 핵심이다. 셋째, 중립성. ‘AI를 더 팔려는’ 벤더가 아니라 ‘AI가 어디서 손해인지’를 정직하게 짚는 위치여야 신뢰가 선다. 과잉 자동화의 시대가 길어질수록, 가장 먼저 불려 가는 진단소가 된다.