StartupXO
語言設定

Language

開發工具與基礎設施

換上更便宜的晶片,品質還能一樣嗎:加速器遷移驗證層

發布日期: 2026-06-27

加速器推論遷移驗證可靠性RISC-V

要解決的問題

推論成本佔產品原價30%~60%的 AI 團隊想離開輝達、換上更便宜的晶片,但換晶片意味著核心整塊被重新實作,累積精度、捨入順序、量化方式的差異會讓輸出悄悄跑偏。MLPerf 與自家流量無關,自建評測集只是跑幾百個樣本「看著差不多」,根本無法證明「這塊晶片品質一樣」,遷移於是卡死。

為什麼是現在

高通正研究收購 Tenstorrent(吉姆·凱勒的 RISC-V AI 晶片公司)的報導(2026年6月),是資本湧入輝達、Arm 之外推論矽晶片這股潮流的表面。能跑同一份工作負載的晶片增加到六七款,擋住遷移的瓶頸已從「矽晶片」移到「信任」。成本壓力推著遷移走,信任空白把它拽回來。填這道縫的驗證工具,是空的。

推薦人才

一位深入摸過多款加速器核心與推論堆疊的 ML 系統工程師,加上一位能把輸出等價性、漂移量化出來的評測/基準設計者。再配上同時向晶片廠商和 AI 團隊兜售的 B2B 嗅覺,以及逆向追蹤「哪個算子在漏精度」的編譯器與數值分析功底,就很強。

問題是什麼

如果推論成本吃掉產品原價的一半,想從輝達換到更便宜的加速器是再自然不過的念頭。AMD 的 MI 系列、Groq、Cerebras,還有吉姆·凱勒的 Tenstorrent 這類 RISC-V 晶片,候選比以往任何時候都多。可真要動手換的團隊,會卡在一個問題上:「這塊晶片上,我們的模型還會給出一樣的答案嗎?」,沒有辦法回答。

因為換晶片意味著跑模型的核心被整塊重新實作。注意力、矩陣乘、正規化,同樣的算式,可每款加速器在累積精度、捨入順序、量化方式上都有微妙差別。這點差別改掉一兩個 token,長生成裡層層累積,輸出便悄悄跑偏。基準分數看著差不多,可在自家公司的 prompt 上就會出現「無聲的品質衰減」:摘要漏掉一個事實,程式碼錯了一行。換上便宜晶片,成本砍了40%,退款工單卻漲了,這是最可怕的劇本。

眼下團隊驗證這件事的手段很單薄。MLPerf 這類標準基準是廠商調優過的合成工作負載,與你的流量無關;自建評測集就是跑幾百個樣本,肉眼判斷「看著接近」。真正需要的,是一台儀器:在你的真實流量上,看清輝達和候選晶片逐 token 在哪裡分叉、這分叉是否觸及品質。沒有它,遷移就陷入「CFO 讓換、工程師不敢信」的僵局。

為什麼是現在

這是加速器選項爆發的拐點。高通研究收購 Tenstorrent 的報導(2026年6月)不是一樁交易,而是資本湧入輝達、Arm 之外推論矽晶片這股潮流的表面。把 RISC-V 當作 Arm 替代的「de-Arm」運動、晶粒與互連新創公司、自研晶片的超大規模廠商,五年前要麼輝達要麼沒得選,如今能跑同一份工作負載的晶片有六七款。

矽晶片多了,軟體移植的牆也一併變高。輝達真正的護城河不是晶片,是 CUDA;一旦換到別的晶片,你就是在沒驗證過的核心上賭博。擋住遷移的瓶頸,已經從「矽晶片」移到「信任」。晶片已經夠好了,可沒有工具能證明它守得住我的品質,於是人人遲疑。推論佔營收30%~60%的成本壓力使勁推著遷移走,信任空白又把它拽回來。兩股力同時變強的當下,正是填這道縫的產品賣得動的時刻。

怎麼構建

核心是「影子重放」驗證層。取樣客戶的真實推論流量,同時灌進現有的輝達路徑和候選加速器路徑,然後測三樣東西。

第一,輸出一致度。對同一輸入,把兩塊晶片的輸出在 token 層和語意層逐一比對,揪出在哪裡分叉。不是簡單的字串 diff,而是把分叉點分類:是觸及品質的分叉(摘要漏掉要點、程式碼行為改變),還是無害的分叉(同義詞、空白)。

第二,核心歸因。把分叉的案例逆向追蹤到「哪個算子在漏精度」。通常是某個注意力實作或某條量化路徑裡的一兩個在作祟。指出來,客戶就能只修那個核心,或者把那份工作負載從遷移範圍裡剔除。

第三,品質對成本看板。給出量化的 go/no-go:「換到這塊晶片,品質降0.3%,但每 token 成本便宜42%」。把模糊的不安,變成能遞上審批鏈的數字。

切入點是把某一對遷移,比如「輝達 → AMD」或「輝達 → Tenstorrent」,的驗證品質做到壓倒性的好。收入按驗證專案收費,再疊一層監控訂閱:遷移之後也持續盯著,看韌體、驅動更新有沒有讓品質漂移。有意思的第二類客戶是晶片廠商自己。對 Tenstorrent 或 Groq 而言,「我們的晶片在品質上與輝達持平」的第三方證明是最強的銷售武器,而這份證明眼下無處外包。

flowchart LR
  T[真實推論流量] --> S[影子重放]
  S --> N[輝達路徑]
  S --> C[候選加速器路徑]
  N --> D[輸出比對 · 漂移分類]
  C --> D
  D --> K[核心歸因]
  D --> R[品質對成本 go/no-go]

成功條件

這個產品賣的是信任,所以它自己必須是房間裡最被信任的東西。第一,區分無害差異與有害差異的分類精度就是一切。把一樁好端端的遷移誤判成「品質衰減」攔下來,客戶就永遠用不上便宜晶片;反過來漏掉真正的衰減,下一次換晶片時就沒人再信這工具。這個分類器隨著各領域流量的累積越來越準,那就是後來者追不上的資料護城河。

第二,廠商中立是命門。無論是輝達還是哪家晶片廠商,一旦被懷疑偏向一邊,你就丟了「裁判」的位子。可以把證明服務賣給晶片廠商,但判定標準必須隔離開,不讓他們碰。

第三,風險在於加速器廠商自己推出遷移驗證工具。但他們的工具在結構上就是為「自家晶片看起來好」而設計的,所以橫跨多款晶片、中立比較的第三方位子,反而因這份不對稱而敞開著。先在一對遷移上做出「真的促成了切換」的標竿案例,往後每出一款新晶片,你都是第一個被叫去的驗證所。