开发工具与基础设施
员工把整月的 token 烧光了 — AI 支出治理工具
发布日期: 2026-06-25
要解决的问题
Uber 在四个月内烧光了 2026 年的全年 AI 预算,并对每名员工的编码工具设了每月 1,500 美元上限。Walmart 收紧了内部 vibe coding 平台的 token,Amazon 警告员工别「为了用而用」。中型企业没有工具去查看、限制、或把按员工和按团队的 LLM 支出改路由到更便宜的模型。
为什么是现在
2025 年还是包月制的 Anthropic、OpenAI 在 2026 年转向按 token 计费,企业从此直接暴露在每一次 prompt 的成本之下。在国内,DeepSeek、通义千问、豆包同样按 token 计价,调用量一涨账单就跳。当「token 随便烧」的时代折向「token 配给制」,传统云 FinOps 工具看不进外部 LLM API 的内部,这块 AI 专用成本治理层仍然空着。
推荐人才
懂企业 SaaS 销售和 CFO/CIO 决策链的 B2B PM,加上做过 LLM 网关或代理的后端工程师。有云 FinOps 或可观测性产品经验是强力加分。
问题是什么
去年还很简单。Anthropic 和 OpenAI 按包月卖,企业提前就知道每月要付多少。2026 年两家把大部分服务转成按 token 计费,局面就变了。现在每一次 prompt、每一个自动化工作流都直接打进账单。后果来得又快又疼。Uber 在四个月内烧光了全年 AI 预算,从四月起把每名员工的编码工具设成每月 1,500 美元上限。Walmart 在内部 vibe coding 平台「Code Puppy」用量飙升后收紧了 token,Amazon 在工程师为了刷内部排行榜而滥用 agent 后,警告员工别「为了用而用」。问题的本质是可见性的缺失。云成本传统 FinOps 工具能看,但 LLM API 是外部服务,谁、哪个团队、在哪个任务上烧了多少 token 都看不见。CFO 手里没有数据回答「我们在 AI 上花的钱有没有换来价值」。在国内同样如此:DeepSeek、通义千问、豆包都按 token 计价,调用一密集,账单就失控。
为什么是现在
时机在两个方向上对齐了。第一,计费模型刚刚变了。从包月到按 token 的转变在 2026 年才走向主流,在那之前根本不需要这种工具——成本看不见,就不会有控制的需求。第二,痛点公开爆发了。当 Uber、Walmart、Amazon 这种体量的公司公开设上限,就说明它们底下还有一大批中型企业在悄悄患同样的病。整个行业正从「token 随便烧」折向「token 配给制」。可传统云 FinOps 工具抓得住 EC2、S3 这类基础设施成本,却看不进外部 LLM API 的内部。买的意愿已经出现,能接住它的产品却空着。挤进这个空档,就是全部机会所在。
怎么构建
在 LLM 调用的必经之路上加一层代理或网关。让所有 API 调用都穿过这一层,记录谁(员工、团队、API key)、在哪个任务、用哪个模型、烧了多少 token。三个核心功能。一,成本归因——把支出按员工、团队、项目、任务切开摊在仪表盘上,让 CFO 的那个问题终于有数字可答。二,预算护栏——给团队和个人设上限,到阈值告警,超了自动拦截,把 Uber 手工做的事用策略自动化。三,策略路由——把分类、摘要这类简单活儿自动落到更便宜的模型,只把复杂推理送给昂贵模型,不是单纯拦截,而是用更低成本把同样的活儿干完。用 SSO、SCIM 接进现有可观测性栈,降低落地阻力。
成功条件
停留在「有了挺好」的仪表盘就会死。省钱必须从第一天就看得见——「上线首月靠路由削减 20%–30% 支出」这样的即时 ROI 必须是销售话术。卖的对象是 CFO 和 CIO,不是开发团队;决策人要先感到 AI 支出变得可控,才会签字。两个风险。其一,如果 Anthropic、OpenAI 把这功能内建进自家控制台,在单一厂商内部你的价值就缩水——所以要快速占住「跨厂商中立成本治理」这个位置。其二,代理挡在每次调用前面,就是延迟和故障的单点。所以网关要轻、要不宕,且不能随意读 prompt 数据——自家的治理要比客户更严,才能换来信任。
一起打造
查看合作人才