モデルを格付けするArenaは1億ドル企業になったのに、自社製品向けの評価は手作業のまま

どんな問題か

LMArenaは2つのモデル出力を横に並べ、人に良い方を選ばせる投票サイトとして始まった。そのサイトが1億ドルを集めた企業になり、出てくるリーダーボードはOpenAI・グーグル・アンソロピックが新モデルを出すたびに真っ先に見るスコアボードになった。問題は、その順位が『平均的なユーザーが平均的な質問をしたとき』の順位だという点だ。自社製品の中で、自社データで、ユーザーが実際に投げる質問にどのモデルが一番よく答えるかは、あの表のどこにもない。だから製品チームはモデルを替えるたびに出力をいくつかスプレッドシートに貼り、目で見比べる。順位を売る事業は1億ドルになったのに、その下で自社製品に合う評価を組む道具は空いたままだ。

なぜ今か

モデルの入れ替えが四半期から週単位になった。GPT・クロード・ジェミニが数週間おきに新版を出し、価格も速度もその都度動く。昨日まで普通に動いていたプロンプトが新モデルで微妙に崩れることが増えたが、これを捕まえる回帰テストがなければ、出した後にユーザーの苦情で気づく。日本でも同じだ。メルカリやLINEのように自社サービスにモデルを載せるチームが増えたが、英語ベンチマークの点数は日本語応対の品質を保証しない。モデルは安く溢れたのに、『どれが自分の仕事に合うか』を答える費用だけが人手に残った。評価がボトルネックになった局面だ。

どう作るか

三つに割る。

第一に、製品の実トラフィックで評価セットを作る。本番ログから代表事例をサンプリングし、機微情報を消し、基準と正解を付けてゴールデンセットに固める。頭で作った例ではなく、実ユーザーの質問が評価の背骨になる。

第二に、採点を自動化しつつ校正する。LLM審査で応答を採点し、人手の少量ラベルと一致率を合わせて審査自体を直す。審査が人とずれたらその点は信じない、を前提としてコードに刻む。

第三に、回帰を常時化する。モデル・プロンプト・温度をいじるたびに同じゴールデンセットに回し、点数の変化を出す。新モデルへ乗り換えるとき、どこが良くなりどこが壊れるかを出す前に見る。

quadrantChart
  title 評価ツールの地形
  x-axis 汎用 --> 製品特化
  y-axis 手作業 --> 自動化
  quadrant-1 空白地帯
  quadrant-2 公開リーダーボード
  quadrant-3 単発ベンチマーク
  quadrant-4 スプレッドシート比較
  Arena: [0.2, 0.85]
  社内スプレッドシート: [0.8, 0.2]
  自社製品向け評価: [0.85, 0.85]

入口は、モデルを本番に上げたばかりのチーム、とりわけ頻繁に替える所だ。すでにスプレッドシート比較に疲れたチームに『一度つなげば次のモデルから自動で比較される』を売る。課金は評価実行量ベースの購読に回帰監視を乗せる。

成功の条件

三つが生死を分ける。第一に審査の信頼度。『Aモデルが自社ドメインで上だ』という結論が人の判断と一致してこそ、チームはその数字で意思決定を変える。審査が出鱈目な点を出せば道具ごと捨てられる。第二に統合の軽さ。ログを一か所つなぐだけで評価セットが立つ水準まで摩擦を下げる。第三にドメインの深さ。汎用ベンチマークと分かれる点は『自社製品の文脈』だ。日本語・法務・医療のように公開リーダーボードが測れない肌理を捉えるほど、自社製品向け評価を真っ先に探す所になる。