替模型排名的Arena做成了募資1億美元的公司，可替自家產品做評測的工具還空著

問題是什麼

LMArena起初是個把兩個模型輸出並排、讓人投票選更好一方的網站。這個網站長成了募資1億美元的公司，它產出的排行榜成了OpenAI、Google、Anthropic每出一個新模型就先去看的計分板。問題在於，那個名次是’普通使用者問普通問題’時的名次。在你自己的產品裡、用你自己的資料、面對使用者真正拋出的問題，哪個模型答得更好，那張表上哪兒都沒有。於是產品團隊每換一次模型，就把幾個輸出貼進表格用眼睛比。賣名次的生意做到了1億美元，可它底下那個替自家產品組評測的工具還空著。

為什麼是現在

模型更替從按季變成了按週。各家基礎模型隔幾週就出新版，價格和速度也隨之變動。昨天還好好跑著的提示詞，到新模型上悄悄就崩了，沒有回歸測試去抓，上線後只能靠使用者抱怨才知道。壓力還來自另一頭：團隊想把同樣的活換到更小更便宜的模型上扛住算力帳單，這就得證明換了之後扛得住。在台灣，把TAIDE這類本土模型或海外模型載進繁中產品的團隊愈來愈多，但英文基準的分數保證不了繁中應對的品質。模型變得又便宜又多，可回答’哪個合我這活’的成本仍卡在人手上。評測成了瓶頸。

怎麼構建

拆成三塊。

第一，用產品的真實流量造評測集。從生產日誌裡採樣代表性案例，抹掉敏感資訊，配上評分標準和標準答案，凍結成黃金集。真實使用者的問題當骨架，而不是憑空編的例子。

第二，把打分自動化但要校準。用LLM裁判給回答打分，再拿少量人工標註去對齊，直到兩者一致；凡是兩者分歧的分數都當作不可信，這條規矩寫進程式碼。

第三，讓回歸常態化。每動一次模型、提示詞、溫度，就跑同一個黃金集，把分數變化亮出來，上線前就看清哪裡變好、哪裡變壞。

quadrantChart
  title 評測工具地形
  x-axis 通用 --> 產品客製
  y-axis 手工 --> 自動化
  quadrant-1 空白地帶
  quadrant-2 公開排行榜
  quadrant-3 一次性基準
  quadrant-4 表格比對
  Arena: [0.2, 0.85]
  內部表格: [0.8, 0.2]
  自家產品評測: [0.85, 0.85]

切入口是剛把模型推上生產、尤其頻繁更換的團隊。對已經被表格比對折磨夠嗆的團隊，賣’接一次，之後每個模型自動對比’。計費走評測執行量訂閱，再疊加回歸監控。

成功條件

三件事決定生死。第一，裁判可信度。‘A模型在我們領域更好’這個結論要跟人的判斷對得上，團隊才會拿這個數字去改決策；裁判給出垃圾分，整個工具就被扔掉。第二，接入要輕。接一處日誌就能立起評測集，再多摩擦採用就停了。第三，領域深度。跟通用基準拉開差距的，是’你產品的語境’。越能抓住公開排行榜測不出的紋理，繁中、法律、醫療，就越成為團隊找產品貼合評測時第一個想到的地方。