StartupXO
言語設定

Language

開発ツール・インフラ

モデルを格付けするArenaは1億ドル企業になったのに、自社製品向けの評価は手作業のまま

公開日: 2026-06-30

モデル評価LLM評価リーダーボードLLM審査評価インフラ

解決すべき課題

公開リーダーボードはモデルを平均値で並べる。だが創業者に必要なのは『自社のユーザーが自社製品で実際に投げる質問』にどのモデル・プロンプトが一番よく答えるかだ。この二つはしばしば食い違う。Arena首位のモデルが自社ドメインでは3位ということもある。なのに製品に合う評価を作る道具がなく、多くのチームは出力をいくつかスプレッドシートに貼って勘で選び、モデルを替えるたびゼロからやり直す。

なぜ今なのか

モデルの入れ替え周期が週単位に縮み、同じ仕事をより小さく安いモデルで回す圧力も強まり、『どれを使うか』をデータで答えねばならないチームが急増した。公開リーダーボード事業は1億ドルになったが、その下の製品別評価レイヤーは空いている。評価セット構築・LLM審査の校正・回帰追跡を束ねる道具は、コストと規制(高リスクAIの検証要求)の両方から需要が定まった市場だ。

推薦人材

本番ログから代表事例を評価セットに落とすデータエンジニア、LLM審査を人手ラベルと突き合わせて校正するMLエンジニア、回帰ダッシュボードと差分UXを作るプロダクトエンジニアが核だ。そこに方法論を信頼させる応用科学者と、モデルを本番に上げたばかりのチームに食い込む開発者向け営業が加われば回る。

どんな問題か

LMArenaは2つのモデル出力を横に並べ、人に良い方を選ばせる投票サイトとして始まった。そのサイトが1億ドルを集めた企業になり、出てくるリーダーボードはOpenAI・グーグル・アンソロピックが新モデルを出すたびに真っ先に見るスコアボードになった。問題は、その順位が『平均的なユーザーが平均的な質問をしたとき』の順位だという点だ。自社製品の中で、自社データで、ユーザーが実際に投げる質問にどのモデルが一番よく答えるかは、あの表のどこにもない。だから製品チームはモデルを替えるたびに出力をいくつかスプレッドシートに貼り、目で見比べる。順位を売る事業は1億ドルになったのに、その下で自社製品に合う評価を組む道具は空いたままだ。

なぜ今か

モデルの入れ替えが四半期から週単位になった。GPT・クロード・ジェミニが数週間おきに新版を出し、価格も速度もその都度動く。昨日まで普通に動いていたプロンプトが新モデルで微妙に崩れることが増えたが、これを捕まえる回帰テストがなければ、出した後にユーザーの苦情で気づく。日本でも同じだ。メルカリやLINEのように自社サービスにモデルを載せるチームが増えたが、英語ベンチマークの点数は日本語応対の品質を保証しない。モデルは安く溢れたのに、『どれが自分の仕事に合うか』を答える費用だけが人手に残った。評価がボトルネックになった局面だ。

どう作るか

三つに割る。

第一に、製品の実トラフィックで評価セットを作る。本番ログから代表事例をサンプリングし、機微情報を消し、基準と正解を付けてゴールデンセットに固める。頭で作った例ではなく、実ユーザーの質問が評価の背骨になる。

第二に、採点を自動化しつつ校正する。LLM審査で応答を採点し、人手の少量ラベルと一致率を合わせて審査自体を直す。審査が人とずれたらその点は信じない、を前提としてコードに刻む。

第三に、回帰を常時化する。モデル・プロンプト・温度をいじるたびに同じゴールデンセットに回し、点数の変化を出す。新モデルへ乗り換えるとき、どこが良くなりどこが壊れるかを出す前に見る。

quadrantChart
  title 評価ツールの地形
  x-axis 汎用 --> 製品特化
  y-axis 手作業 --> 自動化
  quadrant-1 空白地帯
  quadrant-2 公開リーダーボード
  quadrant-3 単発ベンチマーク
  quadrant-4 スプレッドシート比較
  Arena: [0.2, 0.85]
  社内スプレッドシート: [0.8, 0.2]
  自社製品向け評価: [0.85, 0.85]

入口は、モデルを本番に上げたばかりのチーム、とりわけ頻繁に替える所だ。すでにスプレッドシート比較に疲れたチームに『一度つなげば次のモデルから自動で比較される』を売る。課金は評価実行量ベースの購読に回帰監視を乗せる。

成功の条件

三つが生死を分ける。第一に審査の信頼度。『Aモデルが自社ドメインで上だ』という結論が人の判断と一致してこそ、チームはその数字で意思決定を変える。審査が出鱈目な点を出せば道具ごと捨てられる。第二に統合の軽さ。ログを一か所つなぐだけで評価セットが立つ水準まで摩擦を下げる。第三にドメインの深さ。汎用ベンチマークと分かれる点は『自社製品の文脈』だ。日本語・法務・医療のように公開リーダーボードが測れない肌理を捉えるほど、自社製品向け評価を真っ先に探す所になる。

一緒に作りましょう

一緒に作る人材を見る