StartupXO
语言设置

Language

开发工具与基础设施

给模型排名的Arena做成了募资1亿美元的公司,可给自家产品做评测的工具还空着

发布日期: 2026-06-30

模型评测LLM评测排行榜LLM裁判评测基础设施

要解决的问题

公开排行榜按平均值给模型排队。可创业者需要知道的是:自家用户在自家产品里真正抛出的问题,哪个模型、哪条提示词答得最好,这两者常常对不上。Arena第一的模型,在你的领域里可能只排第三。可没有做产品贴合评测的工具,多数团队就把几个输出贴进表格凭感觉挑,每换一次模型又从头来过。

为什么是现在

模型更替周期缩到了周级,用更小更便宜的模型跑同样活的压力又在加大,于是必须用数据而非感觉回答'用哪个'的团队激增。公开排行榜生意做到了1亿美元,可它底下的产品级评测层还空着。把评测集构建、LLM裁判校准、回归追踪捆在一起的工具,正处在需求由成本与监管(高风险AI的验证要求)两端钉死的市场。

推荐人才

能把生产日志挖成评测集的数据工程师,能拿LLM裁判跟人工标注对齐校准的机器学习工程师,能做回归看板与差异对比体验的产品工程师,是核心。再配一位让方法论可信的应用科学家,以及能切进刚把模型推上生产的团队的开发者向销售,就转得起来。

问题是什么

LMArena起初是个把两个模型输出并排、让人投票选更好一方的网站。这个网站长成了募资1亿美元的公司,它产出的排行榜成了OpenAI、谷歌、字节跳动每出一个新模型就先去看的计分板。问题在于,那个名次是’普通用户问普通问题’时的名次。在你自己的产品里、用你自己的数据、面对用户真正抛出的问题,哪个模型答得更好,那张表上哪儿都没有。于是产品团队每换一次模型,就把几个输出贴进表格用眼睛比。卖名次的生意做到了1亿美元,可它底下那个给自家产品组评测的工具还空着。

为什么是现在

模型更替从按季度变成了按周。通义、文心、豆包隔几周就出新版,价格和速度也随之变动。昨天还好好跑着的提示词,到新模型上悄悄就崩了,没有回归测试去抓,上线后只能靠用户投诉才知道。压力还来自另一头:团队想把同样的活换到更小更便宜的模型上扛住算力账单,这就得证明换了之后扛得住。模型变得又便宜又多,可回答’哪个合我这活’的成本仍卡在人手上。评测成了瓶颈。

怎么构建

拆成三块。

第一,用产品的真实流量造评测集。从生产日志里采样代表性案例,抹掉敏感信息,配上评分标准和标准答案,冻结成黄金集。真实用户的问题当骨架,而不是凭空编的例子。

第二,把打分自动化但要校准。用LLM裁判给回答打分,再拿少量人工标注去对齐,直到两者一致;凡是两者分歧的分数都当作不可信,这条规矩写进代码。

第三,让回归常态化。每动一次模型、提示词、温度,就跑同一个黄金集,把分数变化亮出来,上线前就看清哪里变好、哪里变坏。

quadrantChart
  title 评测工具地形
  x-axis 通用 --> 产品定制
  y-axis 手工 --> 自动化
  quadrant-1 空白地带
  quadrant-2 公开排行榜
  quadrant-3 一次性基准
  quadrant-4 表格比对
  Arena: [0.2, 0.85]
  内部表格: [0.8, 0.2]
  自家产品评测: [0.85, 0.85]

切入口是刚把模型推上生产、尤其频繁更换的团队。对已经被表格比对折磨够呛的团队,卖’接一次,之后每个模型自动对比’。计费走评测运行量订阅,再叠加回归监控。

成功条件

三件事决定生死。第一,裁判可信度。‘A模型在我们领域更好’这个结论要跟人的判断对得上,团队才会拿这个数字去改决策;裁判给出垃圾分,整个工具就被扔掉。第二,接入要轻。接一处日志就能立起评测集,再多摩擦采用就停了。第三,领域深度。跟通用基准拉开差距的,是’你产品的语境’。越能抓住公开排行榜测不出的纹理,中文、法律、医疗,就越成为团队找产品贴合评测时第一个想到的地方。