더 싼 칩으로 갈아타도 품질이 그대로일까, 가속기 이식 검증 계층

어떤 문제인가

추론 비용이 제품 원가의 절반을 먹는 AI 회사라면, 엔비디아에서 더 싼 가속기로 갈아타고 싶은 건 당연하다. AMD MI 시리즈, Groq, Cerebras, 그리고 짐 켈러의 텐스토렌트 같은 RISC-V 기반 칩까지 후보는 어느 때보다 많다. 그런데 막상 갈아타려는 팀은 한 지점에서 멈춘다. “이 칩에서도 우리 모델이 똑같은 답을 내놓는가?” 답할 방법이 없다.

칩을 바꾸면 모델을 돌리는 커널이 통째로 새로 구현되기 때문이다. 어텐션, 행렬곱, 정규화, 같은 수식이라도 가속기마다 누적 정밀도, 반올림 순서, 양자화 방식이 미묘하게 다르다. 그 차이가 토큰 한두 개를 바꾸고, 긴 생성에서는 그게 누적돼 출력이 슬그머니 어긋난다. 벤치마크 점수는 비슷하게 나오는데, 정작 우리 회사 프롬프트에서는 요약이 사실을 빠뜨리거나 코드가 한 줄 틀리는 식의 ‘조용한 품질 저하’가 생긴다. 더 싼 칩으로 옮겼더니 비용은 40% 줄었는데 환불 문의가 늘었다, 이게 가장 무서운 시나리오다.

지금 팀들이 이걸 검증하는 방법은 빈약하다. MLPerf 같은 표준 벤치마크는 벤더가 최적화해 둔 합성 워크로드라 우리 트래픽과 무관하고, 자체 평가셋은 샘플 수백 개를 돌려 “비슷해 보인다”고 눈대중하는 수준이다. 정작 필요한 건 우리의 실제 트래픽에서 엔비디아와 후보 칩이 토큰 단위로 어디서 갈라지는지, 그 갈라짐이 품질에 영향을 주는지를 증명하는 계기다. 그게 없어서 이주는 ‘CFO는 하라는데 엔지니어는 못 믿겠다’는 교착에 빠진다.

왜 지금인가

가속기 선택지가 폭발하는 변곡점이다. 퀄컴이 텐스토렌트 인수를 검토한다는 보도(2026-06)는 딜 하나가 아니라, 엔비디아·Arm 바깥의 추론 실리콘에 자본이 몰리는 흐름의 표면이다. RISC-V를 Arm 대안으로 채택하는 ‘de-Arm’ 움직임, 칩렛·인터커넥트 스타트업, 자체 칩을 굴리는 하이퍼스케일러까지, 5년 전엔 엔비디아 아니면 선택지가 없었지만 이제는 한 워크로드를 올릴 수 있는 칩이 예닐곱 개다.

실리콘이 늘어난 만큼 소프트웨어 이식의 벽도 같이 높아졌다. 엔비디아의 진짜 해자는 칩이 아니라 CUDA이고, 다른 칩으로 옮기는 순간 검증되지 않은 커널 위에서 도박을 하게 된다. 이주를 막는 병목이 ‘실리콘’에서 ‘신뢰’로 이동한 것이다. 칩은 충분히 좋아졌는데, 그 칩이 내 품질을 지킨다는 걸 증명할 도구가 없어서 다들 망설인다. 추론이 매출의 30~60%라는 비용 압박은 이주를 강하게 떠밀고, 신뢰 공백은 이주를 붙잡는다. 두 힘이 동시에 세지는 지금이, 그 공백을 메우는 제품이 팔리는 순간이다.

어떻게 만들 수 있나

핵심은 ‘섀도 리플레이’ 검증 계층이다. 고객의 실제 추론 트래픽을 샘플링해 기존 엔비디아 경로와 후보 가속기 경로에 동시에 흘려보낸다. 그리고 세 가지를 측정한다.

첫째, 출력 일치도. 같은 입력에 두 칩이 내놓은 출력을 토큰 단위·의미 단위로 비교해 어디서 갈라지는지 짚는다. 단순 문자열 diff가 아니라, 갈라진 지점이 품질에 영향을 주는 갈라짐인지(요약의 핵심 누락, 코드의 동작 변화) 무해한 갈라짐인지(동의어, 공백)를 분류한다.

둘째, 커널 귀속. 출력이 갈라진 케이스를 역추적해 ‘어느 연산에서 정밀도가 새는가’를 짚는다. 보통 특정 어텐션 구현이나 양자화 경로 한두 개가 범인이다. 이걸 집어 주면 고객은 그 커널만 손보거나, 그 워크로드는 이주 대상에서 빼는 결정을 내릴 수 있다.

셋째, 품질 대 비용 대시보드. “이 칩으로 옮기면 품질은 0.3% 떨어지지만 토큰당 비용은 42% 싸다”는 식의 정량화된 go/no-go를 낸다. 막연한 불안을 숫자로 바꿔 결재 라인에 올릴 수 있게 한다.

진입은 한 쌍의 마이그레이션, 가령 ‘엔비디아 → AMD’나 ‘엔비디아 → 텐스토렌트’, 의 검증 품질을 압도적으로 끌어올리는 데서 시작한다. 수익은 검증 프로젝트 단위에, 이주 후에도 펌웨어·드라이버 업데이트로 품질이 드리프트하는지 계속 감시하는 모니터링 구독을 얹는다. 흥미로운 두 번째 고객은 칩 벤더 자신이다. 텐스토렌트나 Groq 입장에서 ‘우리 칩이 엔비디아와 품질이 같다’는 제3자 증명은 영업의 가장 큰 무기인데, 그 증명을 외주 줄 곳이 지금은 없다.

flowchart LR
  T[실제 추론 트래픽] --> S[섀도 리플레이]
  S --> N[엔비디아 경로]
  S --> C[후보 가속기 경로]
  N --> D[출력 비교 · 드리프트 분류]
  C --> D
  D --> K[커널 귀속]
  D --> R[품질 대 비용 go/no-go]

성공 조건

이 제품은 ‘신뢰를 파는 계측기’라서 자기 자신이 가장 신뢰받아야 한다. 첫째, 무해한 차이와 해로운 차이를 가르는 분류 정확도가 전부다. 멀쩡한 이주를 “품질 저하”로 잘못 막으면 고객은 더 싼 칩을 영영 못 쓰고, 반대로 진짜 저하를 놓치면 그다음 칩 교체 때 아무도 이 도구를 안 믿는다. 이 분류기는 도메인별 트래픽이 쌓일수록 정확해지고, 그게 후발 주자가 못 따라오는 데이터 해자가 된다.

둘째, 벤더 중립이 생명이다. 엔비디아든 어느 칩 벤더든 한쪽에 기울었다고 의심받는 순간 ‘심판’ 자리를 잃는다. 칩 벤더에게 증명 서비스를 팔되, 판정 기준만큼은 그들이 못 건드리게 분리해야 한다.

셋째, 위험은 가속기 벤더들이 자체 마이그레이션 검증 도구를 내놓는 경우다. 다만 그들의 도구는 구조적으로 ‘자기 칩이 좋다’를 보이도록 설계되니, 여러 칩을 횡단해 중립적으로 비교하는 제3자 자리는 오히려 그 비대칭 덕에 열려 있다. 먼저 한 마이그레이션 쌍에서 ‘이주를 실제로 성사시킨’ 레퍼런스를 만들면, 다음 칩이 나올 때마다 가장 먼저 불려 가는 검증소가 된다.