엔비디아 종속성 깨는 AI 인프라의 미래

김렛 랩스(Gimlet Labs)가 엔비디아, AMD, 세레브라스 등 다양한 칩에서 동시에 AI 추론을 실행하는 기술로 8,000만 달러 투자를 유치했습니다. 2030년 2,549억 달러로 성장할 AI 추론 시장에서, 창업자들은 특정 하드웨어에 종속되지 않고 비용을 획기적으로 절감할 수 있는 멀티 칩 전략을 수립해야 합니다.

AI 추론 병목 현상과 8,000만 달러의 의미

최근 김렛 랩스(Gimlet Labs)가 8,000만 달러의 시리즈 A 투자를 유치한 것은 AI 인프라 시장의 거대한 패러다임 전환을 의미합니다. 이 스타트업은 엔비디아(NVIDIA), AMD, 인텔, ARM, 세레브라스(Cerebras), d-Matrix 등 이기종 칩 위에서 AI 추론 작업을 동시에 실행할 수 있는 소프트웨어를 개발했습니다. 이는 창업자들이 더 이상 고가의 특정 GPU나 특정 벤더의 생태계(예: CUDA)에 갇힐 필요가 없음을 시사합니다.

폭발하는 AI 추론 시장의 현실

글로벌 AI 추론 시장은 2025년 1,061억 달러에서 2030년 2,549억 달러로 연평균 19.2% 성장할 전망입니다. 특히 클라우드 AI 추론 칩 시장은 연평균 30.2%라는 경이로운 성장률을 보이고 있습니다. 현재 데이터센터 실리콘 예산의 35% 이상이 추론에 할당되며, 전체 AI 칩 배포의 60% 이상이 추론 워크로드입니다. 엔비디아가 35%의 점유율을 차지하고 있지만, 삼바노바(SambaNova) 같은 ASIC 칩이 42%의 점유율을 보이며 전력 효율성을 무기로 맹추격하고 있습니다.

멀티 칩 오케스트레이션이 가져올 비용 혁신

김렛 랩스의 접근 방식은 창업자들에게 엄청난 무기가 됩니다. 세레브라스는 최근 Llama 3.1 8B 모델 기준 초당 1,800토큰을 처리하며 GPU 대비 20배 빠른 속도와 100배 나은 가격 대비 성능을 입증했습니다. 이제 스타트업은 고성능이 필요한 작업에는 세레브라스나 엔비디아를, 비용 효율이 중요한 백그라운드 작업에는 저렴한 ARM이나 인텔 칩을 동적으로 할당할 수 있습니다. 이는 AI 서비스 운영 비용을 최대 10분의 1 수준으로 낮출 수 있는 잠재력을 가집니다.

아태지역 및 엣지 AI의 부상

한국을 포함한 아시아 태평양 지역은 통신망과 제조 인프라를 바탕으로 엣지 AI 도입이 활발하며, 이 지역의 AI 칩 시장은 연평균 34% 성장하고 있습니다. 스마트팩토리, 자율주행, 로보틱스 등 지연 시간(Latency)에 민감한 서비스를 개발하는 창업자라면, 클라우드에 전적으로 의존하기보다 엣지 환경에서 다양한 저전력 칩을 혼합하여 사용하는 하이브리드 전략이 필수적입니다.

창업자를 위한 전략적 시사점 및 액션 아이템

인프라 종속성 감사 진행: 현재 회사의 AI 모델이 특정 하드웨어 생태계에 얼마나 종속되어 있는지 평가하고, 하드웨어 독립적인 프레임워크 도입을 검토하십시오.
멀티 벤더 믹스 앤 매치 테스트: 고가의 GPU 인스턴스에만 의존하지 말고, 클라우드 제공업체의 대체 가속기(TPU, LPU 등)를 병행 테스트하여 토큰당 단가를 낮추십시오.
경량화 기술 도입: INT8/FP8 양자화(Quantization) 및 모델 가지치기(Pruning) 기술을 적극 도입하여, 저렴한 칩에서도 거대 모델이 원활히 돌아가도록 최적화하십시오.