なぜVCはAIアプリからAIインフラへ移ったのか — 韓国起業家のための推論レイヤープレイブック

2026年のAI投資地形が静かに変わった。派手なAIアプリではなく、その下のレイヤー — チップ、推論エンジン、データパイプライン — に資本が流れている。Cerebras IPO 266億ドル、Sierra 9.5億ドルシリーズE、SGLang商用化法人RadixArk シード1億ドル / バリュエーション4億ドル、マルチシリコンコンパイラGimlet Labs シリーズA 8000万ドルが同じ週に発表されたのは偶然ではない。

このトレンドの背後には単純な問いがある: 「学習済みモデルをどうすれば安くサーブできるか」。これが2026年のAI B2Bの核心的な痛点だ。

AIインフラレイヤーにある実際の空白

VCが注目する領域は3つのレイヤーに分かれる。

第1レイヤー: 推論最適化ミドルウェア。 vLLMとTensorRT-LLMがデフォルトになっているが、「どのワークロードをどのエンジンにルーティングするか」を自動判断するレイヤーがない。Parasailは40カ国のデータセンターGPUをトークン単位課金でオーケストレーションする。Runwareは40万以上の画像・動画生成モデルを単一APIに統合している。

第2レイヤー: 異種チップコンパイラ。 Gimlet Labsが代表例 — NVIDIA・AMD・Intel・ARM・Cerebrasを同時活用し、推論を3〜10倍高速化。すでに月次売上1000万ドル以上。

第3レイヤー: トランスフォーマー専用ASIC。 Etched SohuはトランジスタのLlama-70BでH100の約20倍スループットを主張。Cerebras WSE-3は44GB オンチップSRAMでメモリウォールを解消。

韓国起業家の参入角度

韓国の主要GPUクラウド(KT、Naver Cloud、NHN Cloud)はそれぞれ異なるチップ構成を持つ。この異種性こそGimlet Labsモデルが機能する条件だ。

3つの具体的なビジネス機会がある。

第1に、国内GPUクラウド統合推論ルーター。3つのクラウドから最低コストのエンドポイントをリアルタイムに選択するミドルウェア。KISA網分離・AIガイドライン準拠モジュールを組み合わせると、金融・医療・公共市場への差別化した参入口が生まれる。

第2に、SGLangベースのエージェントサービングPaaS。同じシステムプロンプトを繰り返し使うチャットボット・エージェントワークロードに特化。SGLangのRadixAttentionはこのユースケースでvLLMより+29%スループットを実現する。

第3に、推論コスト監視SaaS。GPUクラウドの請求をワークロード・モデル・エンジン別に分解し、最適化提案を行うツール。月GPU請求額$50K以上の企業が即座にROIを感じられる領域だ。