给模型排名的Arena做成了募资1亿美元的公司，可给自家产品做评测的工具还空着

问题是什么

LMArena起初是个把两个模型输出并排、让人投票选更好一方的网站。这个网站长成了募资1亿美元的公司，它产出的排行榜成了OpenAI、谷歌、字节跳动每出一个新模型就先去看的计分板。问题在于，那个名次是’普通用户问普通问题’时的名次。在你自己的产品里、用你自己的数据、面对用户真正抛出的问题，哪个模型答得更好，那张表上哪儿都没有。于是产品团队每换一次模型，就把几个输出贴进表格用眼睛比。卖名次的生意做到了1亿美元，可它底下那个给自家产品组评测的工具还空着。

为什么是现在

模型更替从按季度变成了按周。通义、文心、豆包隔几周就出新版，价格和速度也随之变动。昨天还好好跑着的提示词，到新模型上悄悄就崩了，没有回归测试去抓，上线后只能靠用户投诉才知道。压力还来自另一头：团队想把同样的活换到更小更便宜的模型上扛住算力账单，这就得证明换了之后扛得住。模型变得又便宜又多，可回答’哪个合我这活’的成本仍卡在人手上。评测成了瓶颈。

怎么构建

拆成三块。

第一，用产品的真实流量造评测集。从生产日志里采样代表性案例，抹掉敏感信息，配上评分标准和标准答案，冻结成黄金集。真实用户的问题当骨架，而不是凭空编的例子。

第二，把打分自动化但要校准。用LLM裁判给回答打分，再拿少量人工标注去对齐，直到两者一致；凡是两者分歧的分数都当作不可信，这条规矩写进代码。

第三，让回归常态化。每动一次模型、提示词、温度，就跑同一个黄金集，把分数变化亮出来，上线前就看清哪里变好、哪里变坏。

quadrantChart
  title 评测工具地形
  x-axis 通用 --> 产品定制
  y-axis 手工 --> 自动化
  quadrant-1 空白地带
  quadrant-2 公开排行榜
  quadrant-3 一次性基准
  quadrant-4 表格比对
  Arena: [0.2, 0.85]
  内部表格: [0.8, 0.2]
  自家产品评测: [0.85, 0.85]

切入口是刚把模型推上生产、尤其频繁更换的团队。对已经被表格比对折磨够呛的团队，卖’接一次，之后每个模型自动对比’。计费走评测运行量订阅，再叠加回归监控。

成功条件

三件事决定生死。第一，裁判可信度。‘A模型在我们领域更好’这个结论要跟人的判断对得上，团队才会拿这个数字去改决策；裁判给出垃圾分，整个工具就被扔掉。第二，接入要轻。接一处日志就能立起评测集，再多摩擦采用就停了。第三，领域深度。跟通用基准拉开差距的，是’你产品的语境’。越能抓住公开排行榜测不出的纹理，中文、法律、医疗，就越成为团队找产品贴合评测时第一个想到的地方。