员工把整月的 token 烧光了 — AI 支出治理工具

问题是什么

去年还很简单。Anthropic 和 OpenAI 按包月卖，企业提前就知道每月要付多少。2026 年两家把大部分服务转成按 token 计费，局面就变了。现在每一次 prompt、每一个自动化工作流都直接打进账单。后果来得又快又疼。Uber 在四个月内烧光了全年 AI 预算，从四月起把每名员工的编码工具设成每月 1,500 美元上限。Walmart 在内部 vibe coding 平台「Code Puppy」用量飙升后收紧了 token，Amazon 在工程师为了刷内部排行榜而滥用 agent 后，警告员工别「为了用而用」。问题的本质是可见性的缺失。云成本传统 FinOps 工具能看，但 LLM API 是外部服务，谁、哪个团队、在哪个任务上烧了多少 token 都看不见。CFO 手里没有数据回答「我们在 AI 上花的钱有没有换来价值」。在国内同样如此：DeepSeek、通义千问、豆包都按 token 计价，调用一密集，账单就失控。

为什么是现在

时机在两个方向上对齐了。第一，计费模型刚刚变了。从包月到按 token 的转变在 2026 年才走向主流，在那之前根本不需要这种工具——成本看不见，就不会有控制的需求。第二，痛点公开爆发了。当 Uber、Walmart、Amazon 这种体量的公司公开设上限，就说明它们底下还有一大批中型企业在悄悄患同样的病。整个行业正从「token 随便烧」折向「token 配给制」。可传统云 FinOps 工具抓得住 EC2、S3 这类基础设施成本，却看不进外部 LLM API 的内部。买的意愿已经出现，能接住它的产品却空着。挤进这个空档，就是全部机会所在。

怎么构建

在 LLM 调用的必经之路上加一层代理或网关。让所有 API 调用都穿过这一层，记录谁（员工、团队、API key）、在哪个任务、用哪个模型、烧了多少 token。三个核心功能。一，成本归因——把支出按员工、团队、项目、任务切开摊在仪表盘上，让 CFO 的那个问题终于有数字可答。二，预算护栏——给团队和个人设上限，到阈值告警，超了自动拦截，把 Uber 手工做的事用策略自动化。三，策略路由——把分类、摘要这类简单活儿自动落到更便宜的模型，只把复杂推理送给昂贵模型，不是单纯拦截，而是用更低成本把同样的活儿干完。用 SSO、SCIM 接进现有可观测性栈，降低落地阻力。

成功条件

停留在「有了挺好」的仪表盘就会死。省钱必须从第一天就看得见——「上线首月靠路由削减 20%–30% 支出」这样的即时 ROI 必须是销售话术。卖的对象是 CFO 和 CIO，不是开发团队；决策人要先感到 AI 支出变得可控，才会签字。两个风险。其一，如果 Anthropic、OpenAI 把这功能内建进自家控制台，在单一厂商内部你的价值就缩水——所以要快速占住「跨厂商中立成本治理」这个位置。其二，代理挡在每次调用前面，就是延迟和故障的单点。所以网关要轻、要不宕，且不能随意读 prompt 数据——自家的治理要比客户更严，才能换来信任。