모델 순위 매기는 Arena는 1억 달러가 됐는데, 내 제품용 평가는 손으로 짠다

어떤 문제인가

LMArena는 모델 두 개를 나란히 띄워 놓고 사람이 더 나은 답을 고르게 하는 투표 사이트로 출발했다. 그 사이트가 1억 달러를 끌어모은 회사가 됐고, 거기서 나오는 순위표는 OpenAI·구글·앤트로픽이 새 모델을 낼 때마다 가장 먼저 들여다보는 점수판이 됐다. 문제는 그 순위가 ‘평균적인 사용자가 평균적인 질문을 던졌을 때’의 등수라는 점이다. 내 제품 안에서, 내 데이터로, 내 사용자가 실제로 던지는 질문에 어느 모델이 더 잘 답하는지는 저 표 어디에도 없다. 그래서 제품을 만드는 팀은 모델을 바꿀 때마다 출력 몇 개를 스프레드시트에 붙여 놓고 눈으로 비교한다. 순위를 파는 사업은 1억 달러가 됐는데, 그 아래에서 자기 제품에 맞는 평가를 짜는 도구는 비어 있다.

왜 지금인가

모델 교체 주기가 분기에서 주 단위로 짧아졌다. GPT·클로드·제미나이가 몇 주 간격으로 새 버전을 내고, 가격과 속도도 그때그때 바뀐다. 어제 멀쩡히 돌던 프롬프트가 새 모델에선 미묘하게 어긋나는 일이 흔해졌는데, 이걸 잡아낼 회귀 테스트가 없으면 배포한 뒤 사용자 항의로 안다. 국내도 똑같다. 네이버 하이퍼클로바X든 해외 모델이든 한국어 제품에 얹는 팀이 늘었지만, 영어 벤치마크 점수는 한국어 응대 품질을 보장하지 않는다. 모델은 흔하고 싸졌는데 ‘이 중 뭐가 내 일에 맞나’를 답하는 비용만 사람 손에 그대로 남았다. 평가가 병목이 된 국면이다.

어떻게 만들 수 있나

세 조각으로 쪼갠다.

첫째, 제품의 실제 트래픽으로 평가셋을 짓는다. 운영 로그에서 대표 사례를 샘플링하고 민감정보를 지운 뒤, 기준과 정답을 붙여 골든셋으로 굳힌다. 머리로 지어낸 예시가 아니라 진짜 사용자가 던진 질문이 평가의 뼈대가 된다.

둘째, 채점을 자동화하되 보정한다. LLM 심판으로 응답을 채점하되, 사람이 매긴 소량의 라벨과 일치율을 맞춰 심판 자체를 교정한다. 심판이 사람과 어긋나면 그 점수는 못 믿는다는 전제를 코드에 박는다.

셋째, 회귀를 상시화한다. 모델·프롬프트·온도를 건드릴 때마다 같은 골든셋에 돌려 점수 변화를 띄운다. 새 모델로 갈아탈 때 어디가 좋아지고 어디가 깨지는지 배포 전에 본다.

quadrantChart
  title 평가 도구 지형
  x-axis 범용 --> 제품 맞춤
  y-axis 수작업 --> 자동화
  quadrant-1 빈 자리
  quadrant-2 공개 리더보드
  quadrant-3 일회성 벤치마크
  quadrant-4 스프레드시트 비교
  Arena: [0.2, 0.85]
  사내 스프레드시트: [0.8, 0.2]
  내 제품용 평가: [0.85, 0.85]

진입점은 모델을 막 프로덕션에 올린 팀, 그중에서도 모델을 자주 바꾸는 곳이다. 이미 스프레드시트로 비교하느라 지친 팀에 ‘한 번 연결하면 다음 모델부터는 자동으로 비교된다’를 판다. 과금은 평가 실행량 기반 구독에 회귀 모니터링을 얹는다.

성공 조건

세 가지가 생사를 가른다. 첫째, 심판 신뢰도. ‘A 모델이 우리 도메인에서 낫다’는 결론이 사람 판단과 맞아떨어져야 팀이 그 숫자로 의사결정을 바꾼다. 심판이 헛점수를 내면 도구째 버려진다. 둘째, 통합의 가벼움. 로그 한 곳만 연결하면 평가셋이 서는 수준으로 마찰을 낮춰야 한다. 셋째, 도메인 깊이. 범용 벤치마크와 갈라지는 지점은 ‘내 제품의 맥락’이다. 한국어·법률·의료처럼 공개 리더보드가 못 재는 결을 잡아낼수록, 자기 제품용 평가를 가장 먼저 찾는 곳이 된다.