員工把整月的 token 燒光了 — AI 支出治理工具

問題是什麼

去年還很單純。Anthropic 和 OpenAI 按包月賣，企業提前就知道每月要付多少。2026 年兩家把大部分服務轉成按 token 計費，局面就變了。現在每一次 prompt、每一個自動化工作流都直接打進帳單。後果來得又快又疼。Uber 在四個月內燒光了全年 AI 預算，從四月起把每名員工的編碼工具設成每月 1,500 美元上限。Walmart 在內部 vibe coding 平台「Code Puppy」用量飆升後收緊了 token，Amazon 在工程師為了刷內部排行榜而濫用 agent 後，警告員工別「為了用而用」。問題的本質是可見性的缺失。雲端成本傳統 FinOps 工具能看，但 LLM API 是外部服務，誰、哪個團隊、在哪個任務上燒了多少 token 都看不見。CFO 手裡沒有資料回答「我們在 AI 上花的錢有沒有換來價值」。

為什麼是現在

時機在兩個方向上對齊了。第一，計費模型剛剛變了。從包月到按 token 的轉變在 2026 年才走向主流，在那之前根本不需要這種工具——成本看不見，就不會有控制的需求。第二，痛點公開爆發了。當 Uber、Walmart、Amazon 這種體量的公司公開設上限，就說明它們底下還有一大批中型企業在悄悄患同樣的病。整個行業正從「token 隨便燒」折向「token 配給制」。可傳統雲端 FinOps 工具抓得住 EC2、S3 這類基礎設施成本，卻看不進外部 LLM API 的內部。買的意願已經出現，能接住它的產品卻空著。擠進這個空檔，就是全部機會所在。

怎麼構建

在 LLM 呼叫的必經之路上加一層代理或閘道。讓所有 API 呼叫都穿過這一層，記錄誰（員工、團隊、API key）、在哪個任務、用哪個模型、燒了多少 token。三個核心功能。一，成本歸因——把支出按員工、團隊、專案、任務切開攤在儀表板上，讓 CFO 的那個問題終於有數字可答。二，預算護欄——給團隊和個人設上限，到閾值告警，超了自動攔截，把 Uber 手工做的事用策略自動化。三，策略路由——把分類、摘要這類簡單活兒自動落到更便宜的模型，只把複雜推理送給昂貴模型，不是單純攔截，而是用更低成本把同樣的活兒幹完。用 SSO、SCIM 接進現有可觀測性堆疊，降低落地阻力。

成功條件

停留在「有了挺好」的儀表板就會死。省錢必須從第一天就看得見——「上線首月靠路由削減 20%–30% 支出」這樣的即時 ROI 必須是銷售話術。賣的對象是 CFO 和 CIO，不是開發團隊；決策人要先感到 AI 支出變得可控，才會簽字。兩個風險。其一，如果 Anthropic、OpenAI 把這功能內建進自家控制台，在單一廠商內部你的價值就縮水——所以要快速佔住「跨廠商中立成本治理」這個位置。其二，代理擋在每次呼叫前面，就是延遲和故障的單點。所以閘道要輕、要不當機，且不能隨意讀 prompt 資料——自家的治理要比客戶更嚴，才能換來信任。