跳转到内容

监控与成本管理

企业部署里,没有监控就没有管理。Claude Code 不便宜——尤其是 Opus 系列、Sonnet 4.5——没有监控、没有成本拆账、没有预警,财务很快会找上门。这一篇讲清楚怎么量、怎么看、怎么控、怎么降。

官方 costs 文档给了几个有用的参考数:

指标 数值
平均成本 $6 / 开发者 / 天
90% 用户 每天少于 $12
团队规模 $100–200 / 开发者 / 月(Sonnet 4.5)

也就是说,一个 50 人的团队,按 Sonnet 4.5 估算,每月大致 $5,000–10,000。这个数给你做预算时的第一感觉。实际成本取决于团队怎么用——重度用 Opus 会贵很多,用 Fast Mode、compact、clear 能省不少。

最直接的监控在 Claude Code 里:

/cost

/cost 命令显示当前会话花了多少 token、多少钱。开一个新会话、跑一段任务、敲 /cost——你就能直观感受到「这一段任务花了几毛钱」。

适合开发者自查:哪种用法贵、哪种用法省,敲几下心里有数。

企业要的不是个人自查,是集中追踪。Console workspace 是 Anthropic Console 里的一个功能——把多个人的用量聚合到一个 workspace 下,便于:

  • 看全团队总用量与总成本
  • 按人拆账
  • 按时间段统计趋势
  • 设预警

具体配法:在 Console 里创建 workspace,把团队成员加进去,所有走该 workspace 的调用都会被聚合统计。

官方 costs 文档按团队大小给了 Rate limit 推荐——这是配 Claude Console 时设的限流值,避免某个团队把全公司额度跑爆:

团队大小 推荐 Rate limit
1–5 人
5–20 人 中低
20–50 人
50–100 人 中高
100–500 人
500+ 人 最高 / 拆多个 workspace

具体数值随时间会调整,以官方 costs 文档当前表格为准。配的时候别一上来就给满,先按推荐值起、看实际用量再调

成本失控多半是 token 用多了。官方推荐的几个降 token 习惯:

习惯 怎么做 为什么省
Compact /compact 把长对话压缩 砍掉冗余历史
Clear /clear 起新会话 不带无关上下文
Specific queries 问得具体 减少来回试错
Break tasks 大任务拆小任务 每段上下文短、不跑题

这四条比换模型更重要:同样跑一个任务,清晰提问 + 拆任务可能省一半 token。

Claude Code 有一些后台 token 消耗——比如自动整理上下文、维护会话状态。官方文档说这部分通常**< $0.04 / session**,几乎可以忽略。

但要注意:如果你长时间不关 Claude Code、又不 clear,后台 token 会累积。养成定期 /clear 或关掉的习惯,这部分就完全不是问题。

Terminal window
claude doctor

claude doctor 是一个诊断命令——查 Claude Code 版本、看环境、诊断常见问题。版本太老、环境不对、配置出问题,第一反应都跑 claude doctor

成本出问题时也先 claude doctor 看版本——老版本可能有已知的浪费 token 的 bug。

OpenTelemetry metrics:接现有可观测体系

Section titled “OpenTelemetry metrics:接现有可观测体系”

企业通常已有完整的可观测平台(Datadog / Grafana / 自建),希望把 Claude Code 的指标也接进去。开 OpenTelemetry metrics:

Terminal window
export CLAUDE_CODE_ENABLE_TELEMETRY=1
export OTEL_METRICS_EXPORTER=otlp

开完之后,Analytics 文档里列的指标(token 用量、调用次数、延迟等)会按 OpenTelemetry 标准导出。导到哪里、怎么聚合,按你平台的 exporter 配。

详细的 metrics 列表与 exporter 配置,以官方 Analytics 文档为准。

走 Bedrock / Vertex 时,Anthropic Console workspace 看不到用量——因为账单走 AWS / GCP。这时候可以用 LiteLLM 这个第三方开源工具:

LiteLLM 能做的 价值
聚合 Bedrock / Vertex / Anthropic 多供应商 一处看全部
按团队 / 项目拆账 财务能对账
限流 防额度跑爆
路由 按场景路由到不同模型

LiteLLM 既可以做 LLM 网关(见 网络与 LLM 网关),也可以纯做成本追踪。在 Bedrock / Vertex 部署里,它几乎是成本追踪的标准答案

想看的 用什么
当前会话花了多少 /cost 命令
全团队用量与成本 Console workspace
限流,防跑爆 Console rate limit(按团队大小)
接现有可观测平台 OpenTelemetry metrics
Bedrock / Vertex 成本拆账 LiteLLM
版本与环境诊断 claude doctor
后台 token 消耗 /cost,通常 < $0.04/session

成本超预算时,先排查这几条:

原因 怎么排查 怎么解
Opus 用太多 Console 看模型分布 大量任务切 Sonnet / Haiku
上下文太长不 compact /cost 里 token 数 定期 /compact/clear
任务问得宽泛 看会话历史 改成具体提问、拆任务
Background 累积 看会话时长 定期关 Claude Code
Rate limit 没设 Console 看 workspace 限额 按团队大小设 limit
老版本 bug claude doctor 看版本 升级

企业从零搭成本治理,建议按这个顺序:

  1. :开 Console workspace,把所有人都加进去——先有数。
  2. :按团队 / 部门拆账,看哪个团队花得多。
  3. :按官方推荐表设 Rate limit,防跑爆。
  4. :培训团队四条习惯(compact、clear、specific、break tasks)。
  5. :把 OpenTelemetry metrics 接到现有平台,做趋势与预警。
  6. :每月看一次成本报告,异常的查原因。

走完这六步,企业 Claude Code 的成本就是可量化、可拆账、可预警、可优化的。

最后一步是把 Claude Code 真正推广到全公司——团队推广经验