StartupXO
语言设置

Language

开发工具与基础设施

换上更便宜的芯片,质量还能一样吗:加速器迁移验证层

发布日期: 2026-06-27

加速器推理迁移验证可靠性RISC-V

要解决的问题

推理成本占产品原价30%~60%的 AI 团队想离开英伟达、换上更便宜的芯片,但换芯片意味着内核整块被重新实现,累积精度、舍入顺序、量化方式的差异会让输出悄悄跑偏。MLPerf 与自家流量无关,自建评测集只是跑几百个样本「看着差不多」,根本无法证明「这块芯片质量一样」,迁移于是卡死。

为什么是现在

高通正研究收购 Tenstorrent(吉姆·凯勒的 RISC-V AI 芯片公司)的报道(2026年6月),是资本涌入英伟达、Arm 之外推理硅片这股潮流的表面。能跑同一份工作负载的芯片增加到六七款,挡住迁移的瓶颈已从「硅片」移到「信任」。成本压力推着迁移走,信任空白把它拽回来。填这道缝的验证工具,是空的。

推荐人才

一位深入摸过多款加速器内核与推理栈的 ML 系统工程师,加上一位能把输出等价性、漂移量化出来的评测/基准设计者。再配上同时向芯片厂商和 AI 团队兜售的 B2B 嗅觉,以及逆向追踪「哪个算子在漏精度」的编译器与数值分析功底,就很强。

问题是什么

如果推理成本吃掉产品原价的一半,想从英伟达换到更便宜的加速器是再自然不过的念头。AMD 的 MI 系列、Groq、Cerebras,还有吉姆·凯勒的 Tenstorrent 这类 RISC-V 芯片,候选比以往任何时候都多。可真要动手换的团队,会卡在一个问题上:「这块芯片上,我们的模型还会给出一样的答案吗?」,没有办法回答。

因为换芯片意味着跑模型的内核被整块重新实现。注意力、矩阵乘、归一化,同样的算式,可每款加速器在累积精度、舍入顺序、量化方式上都有微妙差别。这点差别改掉一两个 token,长生成里层层累积,输出便悄悄跑偏。基准分数看着差不多,可在自家公司的 prompt 上就会出现「无声的质量衰减」:摘要漏掉一个事实,代码错了一行。换上便宜芯片,成本砍了40%,退款工单却涨了,这是最可怕的剧本。

眼下团队验证这件事的手段很单薄。MLPerf 这类标准基准是厂商调优过的合成工作负载,与你的流量无关;自建评测集就是跑几百个样本,肉眼判断「看着接近」。真正需要的,是一台仪器:在你的真实流量上,看清英伟达和候选芯片逐 token 在哪里分叉、这分叉是否触及质量。没有它,迁移就陷入「CFO 让换、工程师不敢信」的僵局。

为什么是现在

这是加速器选项爆发的拐点。高通研究收购 Tenstorrent 的报道(2026年6月)不是一桩交易,而是资本涌入英伟达、Arm 之外推理硅片这股潮流的表面。把 RISC-V 当作 Arm 替代的「de-Arm」运动、芯粒与互连创业公司、自研芯片的超大规模厂商,五年前要么英伟达要么没得选,如今能跑同一份工作负载的芯片有六七款。

硅片多了,软件移植的墙也一并变高。英伟达真正的护城河不是芯片,是 CUDA;一旦换到别的芯片,你就是在没验证过的内核上赌博。挡住迁移的瓶颈,已经从「硅片」移到「信任」。芯片已经够好了,可没有工具能证明它守得住我的质量,于是人人迟疑。推理占营收30%~60%的成本压力使劲推着迁移走,信任空白又把它拽回来。两股力同时变强的当下,正是填这道缝的产品卖得动的时刻。

怎么构建

核心是「影子重放」验证层。采样客户的真实推理流量,同时灌进现有的英伟达路径和候选加速器路径,然后测三样东西。

第一,输出一致度。对同一输入,把两块芯片的输出在 token 层和语义层逐一比对,揪出在哪里分叉。不是简单的字符串 diff,而是把分叉点分类:是触及质量的分叉(摘要漏掉要点、代码行为改变),还是无害的分叉(同义词、空白)。

第二,内核归因。把分叉的案例逆向追踪到「哪个算子在漏精度」。通常是某个注意力实现或某条量化路径里的一两个在作祟。指出来,客户就能只修那个内核,或者把那份工作负载从迁移范围里剔除。

第三,质量对成本看板。给出量化的 go/no-go:「换到这块芯片,质量降0.3%,但每 token 成本便宜42%」。把模糊的不安,变成能递上审批链的数字。

切入点是把某一对迁移,比如「英伟达 → AMD」或「英伟达 → Tenstorrent」,的验证质量做到压倒性的好。收入按验证项目收费,再叠一层监控订阅:迁移之后也持续盯着,看固件、驱动更新有没有让质量漂移。有意思的第二类客户是芯片厂商自己。对 Tenstorrent 或 Groq 而言,「我们的芯片在质量上与英伟达持平」的第三方证明是最强的销售武器,而这份证明眼下无处外包。

flowchart LR
  T[真实推理流量] --> S[影子重放]
  S --> N[英伟达路径]
  S --> C[候选加速器路径]
  N --> D[输出比对 · 漂移分类]
  C --> D
  D --> K[内核归因]
  D --> R[质量对成本 go/no-go]

成功条件

这个产品卖的是信任,所以它自己必须是房间里最被信任的东西。第一,区分无害差异与有害差异的分类精度就是一切。把一桩好端端的迁移误判成「质量衰减」拦下来,客户就永远用不上便宜芯片;反过来漏掉真正的衰减,下一次换芯片时就没人再信这工具。这个分类器随着各领域流量的累积越来越准,那就是后来者追不上的数据护城河。

第二,厂商中立是命门。无论是英伟达还是哪家芯片厂商,一旦被怀疑偏向一边,你就丢了「裁判」的位子。可以把证明服务卖给芯片厂商,但判定标准必须隔离开,不让他们碰。

第三,风险在于加速器厂商自己推出迁移验证工具。但他们的工具在结构上就是为「自家芯片看起来好」而设计的,所以横跨多款芯片、中立比较的第三方位子,反而因这份不对称而敞开着。先在一对迁移上做出「真的促成了切换」的标杆案例,往后每出一款新芯片,你都是第一个被叫去的验证所。