開發工具與基礎設施
替模型排名的Arena做成了募資1億美元的公司,可替自家產品做評測的工具還空著
發布日期: 2026-06-30
要解決的問題
公開排行榜按平均值給模型排隊。可創業者需要知道的是:自家使用者在自家產品裡真正拋出的問題,哪個模型、哪條提示詞答得最好,這兩者常常對不上。Arena第一的模型,在你的領域裡可能只排第三。可沒有做產品貼合評測的工具,多數團隊就把幾個輸出貼進表格憑感覺挑,每換一次模型又從頭來過。
為什麼是現在
模型更替週期縮到了週級,用更小更便宜的模型跑同樣活的壓力又在加大,於是必須用資料而非感覺回答'用哪個'的團隊激增。公開排行榜生意做到了1億美元,可它底下的產品級評測層還空著。把評測集建構、LLM裁判校準、回歸追蹤綁在一起的工具,正處在需求由成本與監管(高風險AI的驗證要求)兩端釘死的市場。
推薦人才
能把生產日誌挖成評測集的資料工程師,能拿LLM裁判跟人工標註對齊校準的機器學習工程師,能做回歸看板與差異對比體驗的產品工程師,是核心。再配一位讓方法論可信的應用科學家,以及能切進剛把模型推上生產的團隊的開發者向業務,就轉得起來。
問題是什麼
LMArena起初是個把兩個模型輸出並排、讓人投票選更好一方的網站。這個網站長成了募資1億美元的公司,它產出的排行榜成了OpenAI、Google、Anthropic每出一個新模型就先去看的計分板。問題在於,那個名次是’普通使用者問普通問題’時的名次。在你自己的產品裡、用你自己的資料、面對使用者真正拋出的問題,哪個模型答得更好,那張表上哪兒都沒有。於是產品團隊每換一次模型,就把幾個輸出貼進表格用眼睛比。賣名次的生意做到了1億美元,可它底下那個替自家產品組評測的工具還空著。
為什麼是現在
模型更替從按季變成了按週。各家基礎模型隔幾週就出新版,價格和速度也隨之變動。昨天還好好跑著的提示詞,到新模型上悄悄就崩了,沒有回歸測試去抓,上線後只能靠使用者抱怨才知道。壓力還來自另一頭:團隊想把同樣的活換到更小更便宜的模型上扛住算力帳單,這就得證明換了之後扛得住。在台灣,把TAIDE這類本土模型或海外模型載進繁中產品的團隊愈來愈多,但英文基準的分數保證不了繁中應對的品質。模型變得又便宜又多,可回答’哪個合我這活’的成本仍卡在人手上。評測成了瓶頸。
怎麼構建
拆成三塊。
第一,用產品的真實流量造評測集。從生產日誌裡採樣代表性案例,抹掉敏感資訊,配上評分標準和標準答案,凍結成黃金集。真實使用者的問題當骨架,而不是憑空編的例子。
第二,把打分自動化但要校準。用LLM裁判給回答打分,再拿少量人工標註去對齊,直到兩者一致;凡是兩者分歧的分數都當作不可信,這條規矩寫進程式碼。
第三,讓回歸常態化。每動一次模型、提示詞、溫度,就跑同一個黃金集,把分數變化亮出來,上線前就看清哪裡變好、哪裡變壞。
quadrantChart
title 評測工具地形
x-axis 通用 --> 產品客製
y-axis 手工 --> 自動化
quadrant-1 空白地帶
quadrant-2 公開排行榜
quadrant-3 一次性基準
quadrant-4 表格比對
Arena: [0.2, 0.85]
內部表格: [0.8, 0.2]
自家產品評測: [0.85, 0.85]
切入口是剛把模型推上生產、尤其頻繁更換的團隊。對已經被表格比對折磨夠嗆的團隊,賣’接一次,之後每個模型自動對比’。計費走評測執行量訂閱,再疊加回歸監控。
成功條件
三件事決定生死。第一,裁判可信度。‘A模型在我們領域更好’這個結論要跟人的判斷對得上,團隊才會拿這個數字去改決策;裁判給出垃圾分,整個工具就被扔掉。第二,接入要輕。接一處日誌就能立起評測集,再多摩擦採用就停了。第三,領域深度。跟通用基準拉開差距的,是’你產品的語境’。越能抓住公開排行榜測不出的紋理,繁中、法律、醫療,就越成為團隊找產品貼合評測時第一個想到的地方。
一起打造
查看合作人才