AI-Native 财务目录:AI 公司的定价、预测与财务架构
如果你刚接触这一切,请从这里开始
这是一份很长的文档。你不需要读完整篇才能开始使用。如果你刚接触 finance,或正在运行一家早期 AI company,下面就是「我该做什么?」的最简单答案。
本周。 设置 Stripe(或等价工具)处理 billing。把它连接到一个简单 bookkeeping tool,例如 Pilot、Bench、Puzzle、Mercury Treasury,或任何能自动化基础工作的工具。从现在开始追踪三个数字:revenue、gross margin(revenue 减去 compute cost 和其他 usage-based vendor costs)以及以月为单位的 cash runway。
本月。 建一个简单 spreadsheet,为未来 18 个月每月一行,预测同样三个数字。每个月第一个工作日更新一次。每月比较 actuals 和 forecast。差异就是你学习真实业务运作方式的地方。
本季度。 有三个月 revenue data 后,看平均 gross margin。如果低于 50%,unit economics 很可能坏了。多数 AI-native businesses 需要 60%+ gross margin 才能在规模上存活;SaaS norms 期待 75–85%。低于 50% 是调查 compute costs、vendor pricing 或 pricing model 是否匹配 cost structure 的信号。
今年。 不要雇 CFO。不要雇 accounting team。不要买 enterprise FP&A software。除非 investor 明确要求,不要做 audit。把省下的时间用于增长 revenue,因为多数 finance 工作只有在你有 meaningful revenue 可管理后才重要。
这就是第一年早期 AI company 的完整财务 prescription:收款、记账、追踪 revenue / margin / runway、每月更新 forecast、别过早建设 finance org。
初学者如何阅读这份文档
如果你是真正初学者,不要线性阅读。按这个顺序读:
- 如果你刚接触这一切,请从这里开始:实际行动清单。
- 初学者 10 分钟版本:定价架构、关键 finance terms、最少指标。
- Finance terms you must know first:读懂后文所需词汇。
- Minimum financial metrics for AI-native companies:真实最小 dashboard。
- Appendix A: Glossary:遇到术语时查。
之后,按你当前问题阅读:定价看 Section A;revenue recognition 和 compute COGS 看 Section B;planning 和 capital allocation 看 Section C;metrics 和 KPIs 看 Section E。
这份文档放在哪里
这份文档属于 《AI-Native Company》系列。《Agent Factory 论纲》 定义架构。《AI Worker 目录》 定义构建什么。《销售目录》 和 《营销目录》 讲公司如何销售和创造 demand。财务目录定义公司如何记账、定价、预测未来,并向资助它的人报告。
如何阅读这份文档
这是一件工具,不是故事。founder 可以用它选择 pricing architecture;finance leader 可以用它搭建 metrics system;investor 可以用它判断 AI-native economics;operator 可以用它识别 margin、runway 和 revenue-recognition 风险。
初学者 10 分钟版本
AI-native finance 与传统 SaaS finance 最大不同在于:成本会随使用量扩张。在 SaaS 中,边际使用成本通常很小,所以按 seat 收费能保持 75–85% gross margin。在 AI 中,每次 query、generation、tool call、voice minute、image 或 video 都可能产生真实 compute cost。pricing、gross margin、revenue recognition 和 forecast 都必须围绕这一点重新设计。
五种基本定价架构
- Per-Seat Pricing。 客户按 user / seat 付费。简单、熟悉、容易采购,但 heavy users 可能压缩 margin。
- Per-Call / Usage Pricing。 客户按 API call、token、minute、document、query 等使用量付费。与成本更对齐,但账单不稳定。
- Per-Outcome Pricing。 客户按完成的结果付费,例如 resolved ticket、processed claim、booked meeting。最贴近 AI Worker 的价值,但需要严密 attribution。
- Value-Based Pricing。 客户按可衡量业务收益的一定比例付费。上行最大,也最难签约和确认收入。
- Hybrid Pricing。 subscription + usage / outcome / services 的组合。多数成熟 AI companies 最终会走向 hybrid。
最重要的三个 finance questions
- 我们每个 customer、call 或 outcome 的 gross margin 是多少?
- compute cost 是随规模下降,还是随使用复杂度上升?
- revenue 是可预测 recurring,还是取决于 usage / outcomes / variable consideration?
如果这三个问题答不上来,公司的 financial architecture 还不够成熟。
你必须先了解的财务术语
ARR / MRR。 Annual / Monthly Recurring Revenue。subscription businesses 的核心 revenue metric。
Gross margin。 revenue 减去直接交付成本后剩余的百分比。AI-native companies 必须把 compute costs 明确纳入 COGS。
COGS。 Cost of Goods Sold。AI 中包括 foundation-model API cost、infrastructure、supporting compute、monitoring,以及部分用于交付服务的人工成本。
CAC payback。 获取客户成本用 gross margin 偿还所需时间。
NRR / GRR。 Net / Gross Revenue Retention。NRR 包括 expansion;GRR 不包括 expansion。
Burn multiple。 net burn 除以 net new ARR。衡量用多少现金买到增长。
Runway。 当前 cash 除以 monthly net burn,以月表示。
Variable consideration。 合同中取决于未来 usage、outcomes 或 value realization 的收入部分。ASC 606 下通常不能过早确认。
AI-native company 最少要追踪的财务指标
最小 dashboard 不需要复杂。早期每月追踪:
| # | 指标 | 公式 | 为什么重要 | 目标 |
|---|---|---|---|---|
| 1 | Revenue(已确认收入) | 按 GAAP 规则在期间内赚取的 revenue 总和 | income statement 报告的 top line | 月环比增长 |
| 2 | ARR | subscription contracts 的 annualized recurring revenue | 标准 SaaS scale metric | 取决于阶段 |
| 3 | Gross margin | (Revenue − COGS) / Revenue | unit economics 是否成立 | AI-native 为 50–70%,成熟 SaaS 为 75–85% |
| 4 | Compute as % of revenue | Compute COGS / Revenue | AI 特有的成本比例 | scaling stage 为 20–35% |
| 5 | Cash on hand | 期末 liquid cash 总额 | 生存指标 | 至少 18 个月 runway |
| 6 | Monthly burn | operating expenses − collected revenue | 现金消耗速度 | 取决于阶段 |
| 7 | Cash runway | Cash on hand / Monthly burn | 现金还能支撑多久 | 18+ 个月 |
| 8 | NRR | (Starting ARR + Expansion − Churn − Contraction) / Starting ARR | 现有客户健康度 | >110% 健康,>130% 强 |
| 9 | CAC payback period | CAC / (Monthly recurring revenue per customer × Gross margin) | acquisition 多久回本 | <18 个月 |
| 10 | Burn Multiple | Net cash burned / Net new ARR added | growth phase 的 capital efficiency | AI-native <2×,成熟 SaaS <1.5× |
执行摘要
AI-native finance 的核心不是「把 SaaS spreadsheet 多加一列 compute」。它要求公司在 pricing、revenue recognition、forecasting、unit economics、capital allocation 和 investor reporting 中,把 AI Worker 的运营指标纳入财务系统。财务团队不能只看 ARR 和 burn;它还必须理解 outcome rate、quality、cost per outcome、model-cost decay、escalation rate 和 attribution accuracy。

五个财务支柱是:
- Pricing architecture:如何收费。
- Revenue and cost mechanics:收入如何确认,成本如何计入 COGS。
- Planning and capital allocation:如何 forecast、投资 compute / people / GTM。
- External reporting:如何向 board、investors、auditors 报告。
- Metrics and KPIs:如何衡量 AI Worker、customer、company 和 capital efficiency。
本页用于什么
作为选择器。 founder 或 CFO 可以用 diagnostic 和 summary table 判断当前应采用哪种 pricing / financial architecture。
作为参考。 finance team 可以用各章节审计自己的 revenue recognition、COGS、forecast、metrics 和 board reporting。
作为 planning tool。 管理层可以用 stage recommendations 建立最小 finance stack,并随公司扩张逐步增加复杂度。
如何选择财务架构
选择 architecture 的最干净方法,是看价值计量单位与成本计量单位的关系。
| 公司阶段 → / Pricing complexity ↓ | Pre-revenue(Seed) | Early revenue($1M–$10M ARR) | Scaling($10M+ ARR) |
|---|---|---|---|
| Simple(per-seat 或 single architecture) | Per-Seat(1) | Per-Seat(1)、Per-Call(2) | — |
| Moderate(usage-based、single architecture) | Per-Call(2) | Per-Call(2)、Per-Outcome(3) | Per-Call(2)、Per-Outcome(3) |
| Complex(hybrid 或 value-based) | — | Hybrid(5) | Hybrid(5)、Value-Based(4) |

财务诊断:八个问题
- 成本是否随使用量显著变化? 是 → Usage、Outcome 或 Hybrid。否 → Per-Seat 可行。
- 买方是否理解 usage unit? 理解 → Usage。不了解 → Seat 或 Hybrid。
- outcome 是否可审计归因? 可 → Per-Outcome / Value-Based。不可 → Seat / Usage。
- deal size 是否足够大以支撑复杂合同? >$1M → Value-Based 可考虑。否则不要。
- gross margin 是否低于 60%? 是 → 需要重新定价、降 compute cost 或改架构。
- 账单是否让客户惊讶? 是 → 增加 included quota、caps、alerts 或 hybrid subscription。
- revenue recognition 是否清晰? 不清晰 → 简化 pricing,或在销售前让 auditor / finance 审查。
- forecast 是否能解释 variance? 不能 → 需要 cohort model、usage model 和 compute-cost model。
方法总览表
| # | Approach | Maturity | 最适合 | 主要优点 | 主要风险 |
|---|---|---|---|---|---|
| 1 | Per-Seat Pricing | Proven | predictable-usage SaaS | forecast 简单 | price 与 cost 脱节 |
| 2 | Per-Call / Usage Pricing | Proven | developer-buyer infrastructure | price 与 cost 对齐 | customer bill anxiety |
| 3 | Per-Outcome Pricing | Emerging | defined-result use cases | 最大化价值捕获 | outcome attribution 复杂 |
| 4 | Value-Based Pricing | Emerging | strategic enterprise deals | premium pricing | 需要成熟 contracting |
| 5 | Hybrid Pricing | Proven | mid-market 和 enterprise scale | 平衡可预测性与价值捕获 | 沟通复杂 |
| 6 | Revenue Recognition | Proven | 任何有 revenue 的公司 | audit defensibility | ASC 606 对 usage / outcome 很复杂 |
| 7 | Compute COGS Accounting | Proven | 任何 AI-native company | margin 清晰 | misclassification risk |
| 8 | Cohort Analysis with Model-Cost Decay | Emerging | $5M+ ARR companies | unit economics 真相 | 需要 data discipline |
| 9 | Pilot Economics & Contract Mechanics | Proven | enterprise sales motions | pilot-to-production conversion | 过早把 pilot 当 production |
| 10 | Forecasting Under Falling Compute Costs | Emerging | usage-model companies | 真实 margin trajectory | 对 compute decay 过度乐观 |
| 11 | Capital Allocation | Proven | post-Series A companies | strategic spend discipline | compute over-investment |
| 12 | Investor & Board Reporting | Proven | post-Series A companies | stakeholder alignment | vanity metrics 替代 substance |
我应该运行哪个 approach?

如果你早期且不确定,默认从 Hybrid 起步:base subscription + included usage + overage。它给客户账单可预测性,也保护公司免受 heavy-user compute risk。只有在 outcome attribution 成熟后再转 Per-Outcome;只有在 executive sponsor 和 baseline measurement 都存在时才做 Value-Based。
财务成熟度曲线

早期公司只需要 runway、burn、gross margin、compute cost。中期公司需要 cohort analysis、CAC payback、NRR、pilot conversion。成熟公司需要 revenue recognition policy、audit trail、capital efficiency、investor reporting 和 full KPI hierarchy。
成熟度图例
- Proven。 SaaS / usage-based / enterprise finance 中已成熟,可直接用于 AI with modifications。
- Emerging。 AI-native companies 2026 年正在形成的新实践。
- Speculative。 依赖尚未普遍成熟的 buyer behavior、contracting 或 accounting patterns。
A. 定价架构
Approach 1 — Per-Seat Pricing
Per-seat 是最熟悉的 SaaS pricing:客户按用户数付费。它适合 AI 功能作为工具或 co-pilot 使用、每个 seat 的使用量大致可预测、买方希望预算稳定的场景。
优点。 简单、易采购、ARR 可预测、revenue recognition 清晰、sales comp 容易。
风险。 heavy users 可能消耗大量 compute,导致 gross margin 被压缩。若 20% users 消耗 80% compute,seat pricing 会悄悄补贴重度用户。
运营纪律。 必须追踪 compute cost per seat、seat utilization、heavy-user distribution,并设置 fair-use limits 或 overage。
Approach 2 — Per-Call / Usage Pricing
usage pricing 按 call、token、minute、document、query、workflow run 等计费。它让 revenue 更接近成本,但客户账单更波动。
优点。 与 compute cost 对齐,heavy users 多付费,初始 adoption 摩擦低。
风险。 bill shock、revenue forecast 波动、客户不确定预算。若 usage unit 与客户感知价值不一致,会感觉像收费惩罚。
运营纪律。 必须提供 usage alerts、caps、forecasting dashboard 和 committed-use discounts。
Approach 3 — Per-Outcome Pricing
per-outcome 按完成结果收费,例如 resolved ticket、processed claim、qualified lead、approved document。它把 AI Worker 当作 work producer,而不是 software access。
优点。 与客户价值高度对齐,容易解释 ROI,natural expansion 随 volume 增长。
风险。 outcome attribution 必须可审计。cost per outcome 若高于 price,margin 会反转。客户可能争议哪些 outcomes 可计费。
运营纪律。 outcome definition、telemetry、audit trail、dispute process 和 minimum commitments 必须在合同中写清。
Approach 4 — Value-Based Pricing
value-based pricing 按客户可衡量经济收益的一定比例收费,例如 cost reduction、productivity gain、revenue lift。它是最有 upside 的架构,也是最难运行的架构。
优点。 upside 最大,与客户结果高度一致,适合 strategic transformation。
风险。 baseline measurement、value attribution、audit rights 和 revenue recognition 都复杂。procurement 通常不习惯。
运营纪律。 deployment 前必须建立 baseline;合同要定义 value-share formula、ceiling/floor、audit rights、measurement period 和 dispute process。
Approach 5 — Hybrid Pricing
hybrid 通常组合 subscription + included usage + overage,或 platform fee + per-outcome,或 services / pilot fee + production usage。它是多数 AI-native companies 的现实落点。
优点。 base subscription 提供可预测 revenue;usage / outcome 捕获 upside;included quota 降低 bill shock。
风险。 pricing page、contract、billing 和 forecast 都更复杂。若设计不清,会让 sales 和 customers 都困惑。
运营纪律。 清楚定义 included usage、overage、tier upgrades、caps、commitments 和 customer success alerts。
B. 收入与成本机制
Approach 6 — Revenue Recognition for AI Contracts
AI contracts 的 revenue recognition 取决于 performance obligations、usage variability、outcome verification 和 variable consideration。per-seat subscription 通常最清晰;usage-based revenue 通常随 usage 发生确认;outcome-based revenue 只有在 outcome 完成且可验证后才应确认;value-based upside 往往因 variable consideration constraint 而保守确认。
实际纪律:在 sales motion scale 前,就让 finance / auditor 审查合同模板。不要让 sales 签下 finance 无法确认收入的结构。
Approach 7 — Compute COGS Accounting
compute 是 AI-native companies 最大 variable cost。COGS 应包括 foundation-model API、embedding / vector database cost、voice / image / video generation cost、supporting infrastructure、monitoring、human review labor(若是交付必需)以及 allocated customer-success time。
最常见错误是把 compute 归入 R&D 或 hosting overhead,从而虚高 gross margin。AI-native finance 必须按 customer、product、worker type 和 pricing architecture 分配 compute cost。
Approach 8 — Cohort Analysis with Model-Cost Decay
AI model prices 通常随时间下降,prompt、caching、batching 和 model routing 也会降低 cost per outcome。因此 cohort gross margin 会随时间改善。但不能把所有 margin improvement 都归功于 model-cost decay;也可能是 mix shift、pricing power 或 workflow selection。
健康 cohort model 应拆分:
- starting gross margin
- usage growth
- model price decay
- prompt / routing efficiency
- customer mix
- support / escalation burden
C. Planning & capital allocation
Approach 9 — Pilot Economics & Contract Mechanics
enterprise AI deals 常从 paid pilot 开始。pilot 应该有明确 scope、success metrics、timeline、data access、security terms 和 conversion mechanics。pilot 本身通常不赚钱;它的目的,是以可控风险证明 production contract。
常见健康结构:
- 30–90 天 pilot
- $25K–$100K pilot fee
- 明确 success metrics
- out-of-scope work 单独收费
- pilot 结束后 30 天内转 production 可保留 preferred pricing
- production contract 通常为 pilot 的 3–10 倍
Approach 10 — Forecasting Under Falling Compute Costs
AI forecast 不能只预测 revenue;还要预测 compute cost curve。模型价格下降可能带来 margin tailwind,但 usage complexity、premium model adoption 和 voice/video modalities 可能抵消它。
forecast 应至少包含三种 scenario:
- base case:model cost 每年下降 30%,usage 正常增长
- upside:cost 下降更快,routing / caching 提效
- downside:premium workloads 增长,cost per outcome 持平或上升
Approach 11 — Capital Allocation
AI-native capital allocation 在 compute、engineering、GTM 和 customer success 之间做 tradeoff。compute optimization 可能比 hiring sales 更能提高 gross margin;better evaluation infrastructure 可能比更多 ads 更能降低 churn;model routing 可能释放数百万美元 runway。
CFO 不能只和 sales 看 pipeline,还必须和 engineering 看 cost per outcome、latency、quality、escalation rate 和 model provider concentration。
D. 外部报告
Approach 12 — Investor & Board Reporting
AI-native board reporting 应分三层:
Tier 1:标准 SaaS metrics。 ARR、MRR、NRR、GRR、gross margin、CAC payback、burn、runway、pipeline、bookings。
Tier 2:AI-specific unit economics。 compute as % of revenue、cost per call / outcome、gross margin by cohort、model-cost-decay trend、usage / outcome volume、attribution accuracy。
Tier 3:operational AI health。 outcome rate、quality, escalation rate、latency、reliability、hallucination rate、evaluation-set trend、prompt-injection resistance。
只报 Tier 1 的 AI company,会让 board 看不到业务真正驱动因素。只报 Tier 3 而缺少 financial synthesis,也无法支持 fundraising。成熟 reporting 把三层因果连起来。
E. 指标与 KPI 框架
前四节讲 AI-native finance 做什么:定价、记账、规划、报告。本节讲 AI-native finance 衡量什么:从 operational layer(每个 AI Worker 的 performance)到 unit-economics layer(每 customer 或 per outcome profitability),再到 company-level financial layer(gross margin、ARR、runway),最后到 investor-facing layer(Burn Multiple、capital efficiency)。
指标层级
每家 AI-native company 的财务现实,都来自四层指标。每一层喂给上一层。
Layer 1 — AI Worker operational metrics。 AI 本身的 performance:outcomes produced、accuracy、escalation rates、throughput。传统 finance 很少参与这些 engineering 和 product metrics,但对 AI-native companies 来说,它们是每个财务数字的 upstream drivers。
Layer 2 — Unit economics。 per-customer 或 per-outcome profitability:contribution margin per outcome、gross margin per call、customer LTV、CAC per cohort、LTV/CAC ratio。
Layer 3 — Company-level financial metrics。 ARR、NRR、gross margin、contribution margin、cash burn、runway。这是 income statement 和 cash-flow report 视角。
Layer 4 — Investor and capital-efficiency metrics。 Burn Multiple、Magic Number、Rule of 40、ARR per employee、capital efficiency ratios。
关键 insight:只报 Layer 4 的公司,在真正驱动业务的东西上是盲飞。诊断信息在 Layer 1 和 Layer 2;战略叙事在 Layer 3;investor pitch 在 Layer 4。

AI Worker operational KPIs
六个核心指标适用于多数 Worker 类型。
1. Outcome rate。 尝试中成功产生 outcome 的比例。
Outcome rate = Successful outcomes / Total attempts
健康范围按 Worker 类型差异很大:customer support 60–85%;sales outreach 2–15%;code generation 30–70%。baseline 是 human-only rate;AI Worker 若能以更低成本持续超过 baseline,就是成功。
2. Quality。 人类或 auditor 对 AI outcome 的质量评分。
Quality = Average rated score (1–5 or 1–10 scale) across audited outcomes
outcome rate 与 quality 的差距很重要。90% outcome rate + 60% quality score,说明产出很多技术上算 outcome 的坏结果。
3. Throughput。 单位时间产生的 outcomes。
Throughput = Outcomes / Time period
Automation leverage = AI throughput / Human throughput
结构化任务的 AI Worker 常有 5–20x automation leverage;creative 或 judgment-heavy tasks 常为 2–5x。
4. Reliability。
Reliability = (Uptime %) × (1 − Error rate) × (Behavioral consistency score)
reliability 决定 AI Worker 是否能被信任进入生产环境。
5. Cost per outcome。
Cost per outcome = (Compute cost + Infrastructure cost + Allocated overhead) / Total outcomes produced
这是 finance 最重要的 Layer 1 metric,因为它直接驱动 gross margin per outcome。
6. Cost-per-outcome trend。
Cost-per-outcome trend = (Cost per outcome this period − Cost per outcome prior period) / Cost per outcome prior period
健康 AI Worker 的 cost-per-outcome 应随模型价格下降、prompt optimization、caching 和 batching 而下降。20–40% annual decay 是一个可用 starting benchmark,但必须用自身 deployment 验证。
Per-architecture financial KPIs
Per-Seat Pricing KPIs。
- seats sold、seats churned、net seats added
- seat utilization rate(健康 60–85%;低于 50% 表示 billing-without-value 风险)
- ARPU / ARPA
- compute cost per seat
- heavy / medium / light user distribution
Seat utilization rate = Active users / Paid seats
ARPU = Total revenue / Active users
Compute cost per seat = Total compute cost / Paid seats
Per-Call / Usage Pricing KPIs。
- active customers
- calls per active customer
- revenue per call
- gross margin per call(应结构性保持 60%+)
- customer concentration
- usage growth rate
- bill-shock churn rate
Calls per active customer = Total billable calls / Active customers
Gross margin per call = (Revenue per call − Cost per call) / Revenue per call
Customer concentration (top 5) = Revenue from top 5 customers / Total revenue
Per-Outcome Pricing KPIs。
- outcomes delivered per period
- outcome attribution accuracy(目标 95%+)
- outcome dispute rate(超过 3% 说明 attribution infrastructure 有问题)
- average revenue per outcome
- cost per outcome
- contribution margin per outcome
- customer outcome consumption growth rate
Contribution margin per outcome = (Revenue per outcome − Variable costs per outcome) / Revenue per outcome
Outcome attribution accuracy = Outcomes with audit-grade telemetry / Total outcomes billed
Value-Based Pricing KPIs。
- baseline measurement period results
- measured value vs. baseline
- value-share capture rate(常见 5–25%)
- audit completion rate
- variable consideration recognition rate
- customer renewal rate at contract end
Hybrid Pricing KPIs。
- subscription-vs-usage revenue split
- overage rate(健康 30–60%)
- average overage revenue per overage customer
- conversion to higher tier
- bill predictability score
各阶段指标优先级
Pre-revenue(Seed)。 top 3:cash runway、monthly burn、lead indicators(waitlist signups、design-partner conversations、beta users)。ARR、NRR、gross margin、CAC 暂时没有意义。
Early revenue($1M–$5M ARR)。 top 5:ARR、gross margin(明确 compute-cost line)、cash runway、NRR(gross + net)、CAC payback。先 tracking,不急于 optimize。
Mid stage($5M–$25M ARR)。 加入 Burn Multiple、contribution margin、pilot-to-production conversion、compute as % of revenue、cohort analysis、customer concentration。
Scaling($25M+ ARR)。 Approach 12 中 Tier 1、Tier 2、Tier 3 全部重要。关键问题变成 reporting cadence:哪些 weekly、monthly、quarterly、annually review。
AI-specific operational efficiency KPIs
- Cost per token(input vs. output):foundation-model API unit cost。
- Inference cost per query:
Inference cost per query = (Foundation-model API cost + Supporting compute cost) / Total queries served
- Cache hit rate:30% cache hit 有意义;60%+ 会改变 unit economics。
- Batch processing efficiency:batch workloads 的 cost per outcome 通常比 real-time 低 50–80%。
- Model utilization rate:self-hosted GPU utilization。低于 40% 表示 over-provisioned;持续 80%+ 需要 capacity planning。
- Prompt token efficiency:每个 input token 产生的 output value。
- Time-to-first-token / time-to-completion:影响 customer experience,也决定某些 workflows 能否替代人类。
Capital efficiency metrics beyond Burn Multiple
ARR per employee。
ARR per employee = Total ARR / Total FTEs
成熟 SaaS 目标 $200K–$400K per employee;$5M–$25M ARR 的 AI-native companies 常为 $150K–$300K。
Gross profit per employee。
Gross profit per employee = (Total ARR × Gross margin) / Total FTEs
R&D as percentage of revenue。 AI-native growth phases 常为 35–55%,高于 SaaS norms。
S&M as percentage of new ARR。 sales 和 marketing spend 除以 net new ARR,用于衡量 GTM efficiency。
Capital efficiency ratio。 current ARR / total capital raised。
Rule of 40。 annual revenue growth rate 加 EBITDA margin,是成熟 SaaS efficiency benchmark。成熟公司应超过 40%。AI-native growth phase 往往低于这个门槛,因为高增长被深度 operating losses 抵消;scale 后会逐步靠近 Rule of 40。
Rule of 40 = Annual revenue growth % + EBITDA margin %
Rule of 50/60 for fast-growing AI-native companies。 部分 AI-native investors 会对 hypergrowth companies 使用 Rule of 50 或 Rule of 60,尤其当 company growth rate 很高、gross margin 正在改善、并且 Burn Multiple 受控时。不要把它当作借口忽略 cash discipline;它只适用于真正高增长且 unit economics 正在改善的公司。
Magic Number。 net new ARR 除以前一 period sales and marketing spend,衡量 GTM spend 产生 ARR 的效率。
Burn Multiple。 net cash burned 除以 net new ARR added。AI-native companies early scale 阶段 <2.0× 通常健康,<1.0× 很强。
Capital efficiency ratio。 current ARR 除以 total capital raised。它粗略说明公司把外部资本转化为 recurring revenue 的能力。
Capital efficiency ratio = Current ARR / Total capital raised
示例:$10M ARR 的 AgentCo
AgentCo 是一家 $10M ARR、hybrid pricing 的 AI-native company,销售 customer-support AI Workers,客户按 base subscription + per-ticket overage 付费。公司有 50 名员工,已累计融资 $30M,当前 cash on hand 为 $25M。
Income statement snapshot。
| Line item | Amount | % of revenue |
|---|---|---|
| Bookings(signed contracts) | $14M | 140% |
| Revenue(recognized GAAP) | $10M | 100% |
| COGS | ||
| Compute(foundation-model API) | $2.5M | 25% |
| Hosting & infrastructure | $400K | 4% |
| Customer-success allocation(variable) | $600K | 6% |
| Total COGS | $3.5M | 35% |
| Gross profit | $6.5M | 65% |
| Operating expenses | ||
| R&D(20 engineers) | $4M | 40% |
| Sales & Marketing | $3.5M | 35% |
| G&A | $2M | 20% |
| Total OpEx | $9.5M | 95% |
| Operating loss | ($3M) | (30%) |
| Cash burn(after working-capital benefit) | ($2.5M) | (25%) |
| Cash on hand | $25M | — |
| Runway | current burn 下 10 年 | — |
Layer 1:AI Worker operational metrics。
| Metric | Value | Healthy? |
|---|---|---|
| Outcome rate(tickets resolved without escalation) | 78% | Yes(60–85% range) |
| Quality(CSAT post-resolution) | 4.4 / 5 | Yes |
| Throughput(resolutions per hour) | 120 | Yes(vs. human 8/hr = 15x leverage) |
| Reliability(uptime × consistency) | 99.5% × 96% = 95.5% | Yes |
| Cost per outcome | $0.42 | Yes($0.20–0.80 range) |
| Cost-per-outcome trend(YoY) | −28% | Yes(within 20–40% target) |
Layer 2:unit economics。
| Metric | Value | Healthy? |
|---|---|---|
| ACV(Average Contract Value) | $100K | — |
| CAC | $50K | — |
| LTV(5-year, with 130% NRR) | $500K | — |
| LTV/CAC ratio | 10x | Excellent(target > 3x) |
| CAC payback period | 14 months | Healthy(target < 18 months) |
| Contribution margin per ticket resolved | 16%(revenue $0.50, cost $0.42) | 偏紧;compute optimization 还有空间 |
| Contribution margin per customer(full bundle) | 71% | Healthy |
Layer 3:company-level financial metrics。
| Metric | Value | Healthy? |
|---|---|---|
| ARR | $10M | — |
| Bookings | $14M | —(比 ARR 高 40%;healthy growth signal) |
| NRR | 128% | Strong(target > 110%) |
| GRR | 92% | Healthy(target > 90%) |
| Gross margin | 65% | Healthy AI-native(target 60–70%) |
| Compute as % of revenue | 25% | Healthy(此阶段 target < 30%) |
| Cash runway | current burn 下 120 months | —(Series B 后会重置) |
| Pilot-to-production conversion | N/A | PLG-led,不是 enterprise pilots |
| Cohort gross margin trend | +3 pts/quarter | Strong(model-cost decay 贡献 2 points;usage expansion 贡献 1 point) |
| Compute concentration | 75% with one provider | Risk;需要 multi-provider strategy |
Layer 4:investor and capital efficiency metrics。
| Metric | Value | Healthy? |
|---|---|---|
| Burn Multiple($2.5M burn / $3.5M new ARR) | 0.7x | Excellent(AI-native target < 2.0x) |
| Magic Number($3.5M new ARR / $3.5M S&M last year) | 1.0 | Healthy |
| ARR per employee($10M / 50) | $200K | 这个规模的 AI-native company 可接受 |
| Gross profit per employee | $130K | 可接受 |
| R&D as % of revenue | 40% | 高,但适合此阶段 |
| S&M as % of new ARR | 100% | Healthy |
| G&A as % of revenue | 20% | 偏高;检查是否过早 build out G&A |
| Rule of 40(40% growth + (-30%) EBITDA) | 10% | 低于 target;growth 和 margin 都要改善 |
| Capital efficiency ratio($10M ARR / $30M raised) | 0.33x | 低于 target(1.5x);early-stage 常见 |
这个 dashboard 告诉团队什么。 AgentCo operationally healthy:AI Worker 在可靠地产生 outcomes,cost-per-outcome trend 正在下降,customer-level economics 很强。company-level picture 也健康,但还有两个 watch areas:contribution margin per ticket resolved 只有 16%,说明 per-ticket pricing 偏紧;G&A at 20% 可能过早。下一季度的 focus 应是降低 cost per ticket(routing、caching、model mix),并确认 G&A spend 是否真的支持下一阶段增长。
F. AI Worker 参考与基准
Per-worker-type KPI cards
1. Customer Support AI Worker
关键 metrics:resolved tickets、deflection rate、CSAT、escalation rate、cost per resolved ticket、hallucination / wrong-answer rate。健康 cost range 常为 $0.20–$0.80 per resolved ticket。
2. Sales Outreach AI Worker(SDR)
关键 metrics:messages sent、reply rate、meeting-booked rate、qualified meeting rate、cost per meeting、domain deliverability、unsubscribe / complaint rate。outcome rate 通常较低,因为买方 response 是 bottleneck。
3. Code Generation AI Worker
关键 metrics:accepted suggestions、PRs generated、human review time saved、test pass rate、security findings、rework rate、cost per accepted code suggestion。
4. Document Analysis AI Worker
关键 metrics:documents processed、field extraction accuracy、audit pass rate、manual review rate、cost per document、latency。
5. Voice Agent
关键 metrics:minutes handled、containment rate、handoff rate、ASR accuracy、TTS quality、cost per minute、latency、customer satisfaction。
6. Search & Retrieval AI Worker
关键 metrics:query volume、answer accuracy、citation accuracy、retrieval precision / recall、cost per query、p95 latency。
7. Claims Processing AI Worker
关键 metrics:claims processed、straight-through-processing rate、fraud flags、human review rate、cycle-time reduction、cost per claim。
8. Meeting Summarization AI Worker
关键 metrics:meetings summarized、decision capture accuracy、action-item accuracy、user correction rate、cost per meeting。
9. Marketing Content AI Worker
关键 metrics:drafts produced、human edit time、publish rate、traffic / conversion impact、brand-voice compliance、cost per publishable asset。
10. Legal Research AI Worker
关键 metrics:research memos produced、citation accuracy、human counsel review time、privilege / confidentiality compliance、cost per memo。
11. Recruiting AI Worker
关键 metrics:candidates sourced、screening accuracy、bias audit results、interview conversion, cost per qualified candidate。
12. Financial Analysis AI Worker
关键 metrics:reports produced、variance detection accuracy、forecast support accuracy、human analyst review time、cost per report。
综合基准表
benchmarks 必须按 worker type、customer segment 和 maturity 分开看。不要把 customer support deflection rate 与 code generation acceptance rate 混为一谈。健康范围应作为 investigation triggers,而不是绝对真理。
| Metric | Layer | Pre-revenue(Seed) | Early($1–5M ARR) | Mid($5–25M ARR) | Scaling($25M+ ARR) |
|---|---|---|---|---|---|
| ARR | 3 | <$1M | $1–5M | $5–25M | $25M+ |
| ARR growth(YoY) | 3 | NM | 200%+ | 100–200% | 50–120% |
| Gross margin | 3 | NM | 50–70% | 60–75% | 65–78% |
| Compute as % of revenue | 3 | NM | 25–50% | 20–35% | 15–30% |
| NRR | 3 | NM | 105–125% | 115–135% | 120–140% |
| GRR | 3 | NM | 85–95% | 90–95% | 92–96% |
| CAC payback period | 2 | NM | <24 months | <18 months | <14 months |
| LTV/CAC | 2 | NM | 3–8× | 5–12× | 5–15× |
| Burn Multiple | 4 | NM | <2.5× | <2.0× | <1.5× |
| Magic Number | 4 | NM | 0.5–1.0 | 0.8–1.5 | 0.7–1.2 |
| ARR per employee | 4 | NM | $100–200K | $150–300K | $200–400K |
| R&D as % of revenue | 4 | NM | 50–70% | 35–55% | 25–40% |
| S&M as % of new ARR | 4 | NM | 100–150% | 80–120% | 70–100% |
| G&A as % of revenue | 4 | NM | 15–25% | 10–18% | 8–14% |
| Rule of 40 | 4 | NM | aspirational | 20–30% | 30%+ |
| Capital efficiency ratio | 4 | NM | 0.2–0.5× | 0.5–1.2× | 1.0–2.0× |
| Cash runway | 3 | 18–24 months | 18–24 months | 18–24 months | 18–24 months |
| Compute concentration(top provider) | 3 | NM | <90% | <80% | <70% |
| Pilot-to-production conversion | 3 | NM | 40–60% | 55–70% | 65–80% |
| Cohort gross margin trend(YoY) | 3 | NM | flat to +5 pts | +3 to +8 pts | +3 to +6 pts |
| Bookings/recognized revenue ratio | 3 | NM | 1.0–1.5× | 1.0–1.4× | 1.0–1.3× |
| Outcome attribution accuracy(if outcome-priced) | 1 | NM | >90% | >95% | >97% |
| AI Worker cost-per-outcome decay(YoY) | 1 | NM | 20–40% | 20–40% | 15–35% |
诊断 playbooks
若 gross margin 下降,先问:
- cost per outcome 是否上升?
- outcome rate 是否下降?
- escalation rate 是否上升?
- premium model mix 是否变化?
- cache / batching 是否失效?
- customer mix 是否转向更重 workload?
若 NRR 下降,先问:
- customer outcome consumption 是否下降?
- quality score 是否下降?
- bill shock 是否导致 churn?
- customer success 是否及时介入 usage anomalies?
Cohort dashboard 模板
Cohort dashboard 的目标,是把 retention、expansion、gross margin 和 model-cost decay 放在同一个视图里。只看 ARR retention 会掩盖一个常见问题:customer retained 了,但因为 usage mix 变重或 premium model mix 上升,margin 变坏了。
Logo retention by acquisition cohort。
| Cohort(acquisition Q) | Customers acquired | Q+0 | Q+1 | Q+2 | Q+3 | Q+4 | Q+5 | Q+6 | Q+7 | Q+8 |
|---|---|---|---|---|---|---|---|---|---|---|
| Q1 2024 | 25 | 100% | 96% | 92% | 88% | 88% | 88% | 88% | 84% | 84% |
| Q2 2024 | 30 | 100% | 97% | 93% | 90% | 90% | 90% | 87% | 87% | — |
| Q3 2024 | 32 | 100% | 97% | 91% | 91% | 88% | 88% | 88% | — | — |
| Q4 2024 | 35 | 100% | 94% | 91% | 91% | 89% | 86% | — | — | — |
ARR retention by cohort。
| Cohort | Q+0 | Q+4(1 year) | Q+8(2 years) | NRR Q+8 |
|---|---|---|---|---|
| Q1 2024 | $100K | $115K | $128K | 128% |
| Q2 2024 | $125K | $138K | $145K | 116% |
| Q3 2024 | $135K | $150K | — | — |
| Q4 2024 | $145K | $158K | — | — |
Gross margin by cohort with model-cost-decay decomposition。
| Cohort | Gross margin Q+0 | Gross margin today | Total improvement | Behavior contribution | Model-cost-decay contribution |
|---|---|---|---|---|---|
| Q1 2024 | 55% | 72% | +17 pts | +6 pts(usage growth, product expansion) | +11 pts(foundation-model price decay) |
| Q2 2024 | 58% | 72% | +14 pts | +5 pts | +9 pts |
| Q3 2024 | 60% | 71% | +11 pts | +4 pts | +7 pts |
| Q4 2024 | 62% | 71% | +9 pts | +3 pts | +6 pts |
这个 template 的 value 不在于漂亮的 table,而在于 decomposition。Q1 2024 cohort 的 gross margin 从 55% 升到 72%。naive interpretation 是 customers 变得更 profitable;分解后可以看到 behavior 只改善 6 points,更大的 driver 是 compute price decay 带来的 structural margin tailwind(11 points)。如果把它误读成 pricing power,strategy 会完全不同。
各阶段 investor diligence 清单
不同融资阶段有不同的 metric expectations。下面列的是 investors 实际会要的材料;提前准备能显著缩短 diligence timeline。
Series A diligence(typical raise:$5–25M)。
Investors expect:
- 最近 12 个月的 monthly revenue(MRR / ARR),并拆分 subscription / usage / outcome
- customer count by month,包含 new / churned / active flow
- 最近 4–8 个 cohorts 的 cohort retention chart(logo and revenue)
- cohort gross margin,并明确 compute breakdown
- top 10 customers,含 ACV、contract length、renewal status
- CAC by acquisition channel、blended CAC、CAC payback period
- 最近 12 个月 monthly burn rate trajectory
- founding 至今 capital efficiency(total raised vs. current ARR)
- forward 18-month forecast,并列出 explicit assumptions(revenue model、growth rate、hiring plan)
- compute cost as % of revenue,并拆分 provider
- founder team 和 current org chart
2026 年 Series A bar 大致是:$1–3M ARR、200%+ growth、dominant cohort unit economics 健康、gross margin 高于 50%、early NRR 高于 110%。
Series B diligence(typical raise:$25–75M)。
Series A diligence 之外,还要:
- full cohort gross margin trends,并包含 model-cost-decay decomposition
- pilot-to-production conversion rates(如果是 enterprise sales motion)
- per-segment unit economics(SMB / mid-market / enterprise)
- compute concentration analysis 和 multi-provider strategy
- revenue recognition policy,以及 auditor sign-off documentation
- usage and outcome contracts 的 ASC 606 audit trail
- capital allocation framework(compute / people / customer acquisition)
- engineering output metrics(features shipped、AI Worker capability improvements)
- Burn Multiple、Magic Number、Rule of 40 trajectory
- forward 24-month forecast,并对 compute price decay 做 sensitivity analysis
- detailed customer reference checks(investors 会打给 top customers)
- outcome attribution accuracy(if outcome-priced)
2026 年 Series B bar 大致是:$5–15M ARR、100%+ growth、Burn Multiple under 2x、NRR above 120%、gross margin above 60%、并证明 cohorts 能撑过 second renewal。
M&A diligence(strategic acquisition or PE)。
Series B diligence 之外,还要:
- 最近 2–3 年 audited financials
- quality of earnings deep-dive(通常由 Big Four accounting firm 执行)
- forecast accuracy track record(最近 8 个 quarters forecast vs. actuals)
- detailed contract review(customer contracts、vendor contracts、employment agreements)
- technology and IP assessment(model ownership、foundation-model dependencies、training data provenance)
- compliance and regulatory review(data privacy、sector-specific regulations)
- customer concentration risk,并附 detailed contractual terms
- compute concentration risk,并附 foundation-model provider contracts
- outcome attribution audit(sample-based verification of attribution accuracy)
- tax structure review(transfer pricing、deferred revenue treatment、R&D credits)
- working capital analysis(DSO、prepaid compute、deferred revenue waterfall)
M&A bar 取决于 acquirer thesis。strategic acquirers 最关心 technology 和 customer fit;PE acquirers 最关心 cash flow 和 predictability;financial sponsors 最关心 exit pathways。
成熟 finance function 会维护 running data rooms,每季度更新,确保「30 天内 ready」是真实状态,而不是愿望。
Compute economics 深入分析
compute 是多数 AI-native companies 最大 variable cost。必须按 per-unit、per-modality、per-provider 理解,而不只是看 gross-margin percentage。
| Modality | 典型 cost range | cost driver |
|---|---|---|
| Text generation(LLM API) | $0.50–15 / 1M input tokens;$1.50–75 / 1M output tokens | model size 和 quality tier |
| Voice synthesis(TTS) | $0.05–0.30 / generated speech minute | voice quality 和 naturalness |
| Voice recognition(ASR/STT) | $0.02–0.20 / transcribed minute | real-time vs. batch、language、accuracy tier |
| Image generation | $0.005–0.10 / image | resolution、model quality |
| Video generation | $0.10–2.00 / generated second | resolution、length、model quality |
| Embeddings | $0.02–0.30 / 1M tokens | embedding dimensionality 和 quality |
| Fine-tuning | $50–500 / 1M training tokens + host compute | model size、training method |
Provider categories。 foundation-model API providers(Anthropic、OpenAI、Google、Mistral、Cohere 等)最容易但 margin control 最少;hyperscaler offerings(AWS Bedrock、Azure OpenAI、GCP Vertex AI)带来 procurement / compliance 优势;self-hosted / open-weight models(Llama、Mistral、Qwen、DeepSeek 等)在高 utilization 下成本最低,但需要工程能力和 capacity planning。
Build-vs-buy math。
API cost per inference = $X (variable, scales linearly)
Self-host cost per inference = (GPU hourly cost / inferences per hour at target latency) + amortized engineering cost
多数 AI-native companies 从 APIs 开始,在 $5–15M ARR 时评估 self-hosting,在 $25M ARR 后采用 hybrid strategies:最高 volume workloads self-host,其余使用 API。
Operational health metrics for AI Workers
除了 Section E 的六个核心 operational KPIs,成熟的 AI Worker monitoring 还需要更深一层 health metrics。它们判断 AI Worker 是否 operationally trustworthy,而不只是 productive。
Drift detection rate。 输入中落在 AI Worker 设计分布之外的比例。drift 正常存在:customer behavior 会变,edge cases 会出现。但 drift 上升是 accuracy degradation 的 leading indicator。健康状态:5–15% inputs 检测到 drift,并对这些 inputs 做 explicit handling(escalation、low-confidence flag)。风险状态:drift below 1%(可能 drift detection 没工作)或 above 30%(Worker 已经远离 design envelope)。
Hallucination rate by domain。 AI Worker outputs 中 fabricated facts 的频率,并按 topic domain segment。general assistant overall hallucination rate 可能只有 2%,但 legal questions 为 8%,medical questions 为 15%。按 domain 追踪能看出哪些 use cases 不安全;aggregate-only tracking 会掩盖真实风险。
Latency distribution(p50、p95、p99)。 mean latency 会隐藏 worst-served users 的体验。p50 为 1 秒但 p99 为 30 秒,意味着 1% users 要等 30 秒,通常已经不可接受。健康状态:p99 不应超过 p50 的 3–5×;更高通常说明 capacity misprovisioned 或 queueing broken。
Prompt-injection resistance。 adversarial inputs 试图让 AI 打破 rules 时,AI Worker 正确拒绝或 containment 的比例。任何处理 untrusted user input 的 AI Worker 都必须追踪。健康状态:standard adversarial-input test sets 上 above 95%,并随 attack patterns 演化定期重新评估。
Refusal rate appropriateness。 AI Worker 正确说「我不知道」或「我不能帮助这个请求」的频率,同时区分 over-refusal(拒绝本应回答的问题)和 under-refusal(尝试本应拒绝的问题)。健康范围取决于 use case,但 calibration 必须持续 monitoring。
Evaluation-set performance trend。 在 curated evaluation set 上随时间 tracking performance。models 会变(foundation-model upgrades、prompt iterations、new training data),evaluation set 是 constant ruler。trend 下降就是 regression signal;要在 regression 进入 customer-facing metrics 之前调查。
这些 six metrics 应与 Section E 的 six core KPIs 一起进入 AI Worker monitoring stack。它们给 finance、product 和 engineering 一个共同 operational health view,并提前预警如果 operational health 恶化,后续会出现什么 financial impact。
其他 dashboard 示例
Worked example: SeedAI at pre-revenue(Seed stage)
Profile。 pre-revenue AI agent company,距离 public launch 4 个月。8 employees。6 个月前融资 $3M Seed。5 个 design partners 正在 beta 使用,没有 commercial contracts。pricing model 仍在开发,预计用 Per-Call。
Layer 1 metrics。
| Metric | Value | Notes |
|---|---|---|
| Outcome rate(in beta) | 65% | 正在上升;3 个月前为 45% |
| Quality score | 3.8/5 | 随 prompt iteration 改善 |
| Cost per outcome(in beta) | $0.85 | 偏高;model usage 成熟后会下降 |
Layer 2 metrics。 还没有 commercial relationships,因此暂时没有意义。
Layer 3 metrics。
| Metric | Value | Notes |
|---|---|---|
| Monthly burn | $200K | 包含 8 employees + compute + infrastructure |
| Cash on hand | $1.8M | 6 个月已经 deployed $1.2M 后的余额 |
| Cash runway | 9 months | 偏紧;6 个月内需要 raise 或 hit revenue |
| Compute spend | $15K/month | 5 个 design partners 的 beta usage |
Layer 4 metrics。 pre-revenue 阶段还没有意义。
这个 dashboard 告诉团队什么。 SeedAI 是 pre-revenue company,cash runway 只有 9 个月;唯一重要的 metrics 是 runway、burn 和 lead indicators(beta engagement、quality trending up、cost-per-outcome trending down)。quality score 从低 3 分升到高 3 分,是最清晰的 health signal。如果 public launch 前 quality plateau,launch 会失败。团队应该只关注把 outcome rate 和 quality 提升到 ship-ready level;这个阶段做复杂 KPI dashboard 是浪费。
Worked example: ScaleAI at $50M ARR Series B(value-based pricing component)
Profile。 enterprise AI company,主要是 ABM 和 field-sales motion。$50M ARR。180 employees。12 个月前完成 Series B(raised $75M)。pricing 是 hybrid,其中 strategic enterprise customers 有 substantial value-based engagements:5 个 value-based customers 贡献 $50M ARR 中的 $18M,其余 $32M 来自 Per-Outcome 和 Hybrid contracts。
Layer 1 metrics。
| Metric | Value | Healthy? |
|---|---|---|
| Outcome rate(across all customers) | 81% | Yes |
| Outcome attribution accuracy | 96% | Yes(target above 95%) |
| Cost per outcome | $0.31 | Yes;YoY 下降 30% |
Layer 2 metrics。
| Metric | Value | Healthy? |
|---|---|---|
| ACV(subscription customers) | $250K | — |
| ACV(value-based customers) | $3.6M | Premium pricing |
| LTV/CAC(subscription) | 7× | Healthy |
| LTV/CAC(value-based) | 12× | Strong |
| CAC payback(blended) | 16 months | Healthy |
Layer 3 metrics。
| Metric | Value | Healthy? |
|---|---|---|
| ARR | $50M | — |
| Bookings | $68M | 比 ARR 高 36%(value-based contract growth) |
| NRR | 135% | Strong |
| Gross margin | 70% | Strong |
| Compute as % of revenue | 22% | Healthy |
| Pilot-to-production conversion | 71% | Strong |
| Variable consideration recognition rate | 60% | mid-range;track record 成熟后应上升 |
Layer 4 metrics。
| Metric | Value | Healthy? |
|---|---|---|
| Burn Multiple | 1.2× | Strong |
| ARR per employee | $278K | 这个规模的 AI-native company 很强 |
| Rule of 40 | 45%(60% growth + (-15%) EBITDA) | Strong |
| Capital efficiency ratio | 0.50×($50M ARR / $100M raised) | Improving |
这个 dashboard 告诉团队什么。 ScaleAI 是健康的 Series B AI-native company,unit economics 很强,hybrid pricing strategy 正在工作。value-based contracts 正在完成它们的任务:用 premium pricing 在 strategic accounts 集中 revenue。需要重点 watch 的是 60% variable-consideration-recognition rate;随着 value-based contracts aging,并且 audit-defensible value calculation 成熟,这个数字应上升到 75–85%,从已签 contracts 中释放额外 $5–10M GAAP revenue。
Worked example: ScaleCo at $150M ARR Series C+(mature scaling)
Profile。 late-stage AI-native company,主要使用 Per-Outcome pricing。$150M ARR。450 employees。18 个月前完成 Series C(raised $150M)。800 customers,覆盖 mid-market 和 enterprise。未来 12–18 个月准备 Series D 或 strategic alternatives。
Layer 1 metrics。 aggregated;full per-AI-Worker reporting 内部可用。
| Metric | Value | Healthy? |
|---|---|---|
| Outcome rate(across all AI Workers) | 84% | Strong |
| Cost per outcome trend(YoY) | -22% | Healthy |
| Outcome attribution accuracy | 98% | Excellent |
Layer 2 metrics。
| Metric | Value | Healthy? |
|---|---|---|
| ACV(blended) | $190K | — |
| LTV/CAC | 9× | Strong |
| CAC payback | 13 months | Strong |
| Contribution margin per outcome | 74% | Strong |
Layer 3 metrics。
| Metric | Value | Healthy? |
|---|---|---|
| ARR | $150M | — |
| Bookings | $185M | 比 ARR 高 23% |
| NRR | 138% | Excellent |
| GRR | 94% | Strong |
| Gross margin | 75% | Strong(AI-native range 顶端) |
| Compute as % of revenue | 18% | Excellent(两年前为 28%) |
| Cohort gross margin trend | +4 pts/year | Strong(model-cost decay 正在放缓) |
Layer 4 metrics。
| Metric | Value | Healthy? |
|---|---|---|
| Burn Multiple | 0.4× | Excellent |
| ARR per employee | $333K | Strong |
| R&D as % of revenue | 28% | 接近 mature SaaS |
| S&M as % of new ARR | 78% | Strong |
| Rule of 40 | 50%(40% growth + 10% EBITDA) | Strong |
| Capital efficiency ratio | 0.94×($150M ARR / $160M raised) | Strong |
这个 dashboard 告诉团队什么。 ScaleCo 正接近 IPO-readiness metrics。Rule of 40 above 40%、Burn Multiple under 0.5×、gross margin at 75%,都处于 public AI-native investors 希望看到的 range。仍需关注三件事:第一,cohort gross margin trend 从两年前 +6 pts/year 放缓到现在 +4 pts/year,说明 model-cost decay 正常化,团队应依靠 product-side levers(efficiency engineering、pricing power)继续改善 margin;第二,R&D at 28% 未来可能继续压缩,团队应规划哪些 capabilities 自建、哪些通过 partnerships 获得;第三,公司已有支持 premium Series D 或 strategic alternatives 的 metrics,strategic question 是哪条路径给 stakeholders 带来最佳 risk-adjusted outcome。
这三个 dashboards 展示了不同阶段 metric priorities 如何变化。SeedAI 关心 runway 和 quality。ScaleAI 关心 cohort behavior、value-based contract maturation 和 Burn Multiple discipline。ScaleCo 关心 Rule of 40、capital efficiency 和 IPO-readiness benchmarks。同一套 framework 适用于三者;真正重要的 metrics 会随阶段变化。
横向概念
Bill shock。 usage 或 outcome pricing 中客户账单突然上升。需要 alerts、caps、commitments 和 customer success intervention。
Revenue predictability vs. value alignment。 seat pricing 最可预测,但不总与价值对齐;outcome / value-based 最对齐,但预测和 accounting 最难。
Human review as COGS。 如果人类 review 是交付 outcome 的必要组成部分,它就应计入 COGS,而不是 hiding in support。
Compute concentration risk。 依赖单一 model provider 会带来 pricing、availability、policy 和 negotiation risk。成熟公司应有 multi-provider strategy。
AI 改变每个 finance discipline 的地方
pricing 从 access 转向 work。 AI Workers 不是传统 software seats;它们完成工作。因此 pricing 会从 seats 走向 usage、outcomes 和 value。
COGS 从 hosting 变成核心战略变量。 compute 不再是小额基础设施成本,而是决定 gross margin 的中心变量。
finance 必须理解 product telemetry。 outcome rate、quality、escalation 和 latency 会提前数月预示财务结果。
forecast 必须包含 technology cost curve。 model price decay、routing、batching 和 caching 会改变 margin。
investor reporting 必须解释 AI-specific economics。 只报 SaaS metrics 已不足以解释 AI-native business。
常见 hybrid models
- base subscription + included usage + overage
- platform fee + per-outcome charge
- paid pilot + production usage contract
- seat pricing for co-pilot tier + outcome pricing for autonomous tier
- enterprise commitment + value-based upside
hybrid 是默认成熟形态,因为它平衡 customer budget predictability 与 vendor upside。
常见财务失败模式
Seat pricing 忽略 heavy-user compute。 修复:追踪 compute cost per seat,并加入 fair-use / overage。
Usage pricing 导致 bill shock。 修复:提供 alerts、caps、commitments 和 customer success。
Outcome pricing 没有 attribution。 修复:先建 audit-grade telemetry,再改变 pricing。
Value-based contract 没有 baseline。 修复:deployment 前建立 measurement period。
把 compute 放进 R&D 而不是 COGS。 修复:按交付相关性归集成本。
Pilot 变成永久试用。 修复:合同中写明 conversion deadline 和 preferred pricing expiry。
过度依赖 model-cost decay。 修复:forecast downside case,并建设 product-side efficiency levers。
AI-native finance anti-patterns
- SaaS spreadsheet cosplay:拿传统 SaaS template 直接套 AI business。
- Gross margin theater:不把 compute 和 human review 算进 COGS。
- Outcome-pricing bravado:还没有 attribution 就宣布按 outcome 收费。
- Overbuilt finance too early:pre-revenue 公司做 Series B dashboard。
- Underbuilt finance too late:$10M ARR 后仍没有 revenue recognition policy 和 cohort reporting。
最小可行 finance stack 与阶段建议
| Stage | 必做 | 暂时避免 |
|---|---|---|
| Pre-revenue | bookkeeping、runway、burn、beta quality metrics | CFO、FP&A suite、复杂 cohort dashboards |
| Early revenue | ARR、gross margin、compute cost、NRR、CAC payback | heavy audit、overbuilt board reporting |
| $5M–$25M ARR | cohort margins、pilot conversion、Burn Multiple、compute forecast | 模糊 COGS、single-provider risk |
| $25M+ ARR | full KPI hierarchy、revenue policy、audit trail、investor reporting | 只报 SaaS metrics |
如何使用本目录
第一,先命名你的 pricing architecture。 seat、usage、outcome、value-based、hybrid 中,你今天真实运行哪个?如果是 hybrid,写清每个 component。
第二,把 compute 放进核心 finance。 每月看 compute as % revenue、cost per outcome、provider mix、model-cost trend。
第三,按阶段建设 finance function。 不要早期过度建设,也不要在收入已经复杂后还没有 policies、controls 和 dashboards。
初学者常见问题
AI company 一开始应该用什么 pricing? 多数情况下用 hybrid:base subscription + included usage + overage。它比纯 usage 更可预测,比纯 seat 更能防 heavy-user cost。
gross margin 多少算健康? 早期 50–60% 可接受但要改善;scale 后目标 65–80%。低于 50% 要立刻调查。
什么时候雇 CFO? 通常不要在早期雇。先用 fractional finance / accounting support。真正 CFO 多数在 $10M+ ARR、融资复杂或 reporting 复杂时才需要。
compute 应算 COGS 吗? 如果 compute 是交付产品必需成本,就应算 COGS。
outcome pricing 什么时候可行? 当 outcome definition、attribution telemetry、dispute process 和 unit economics 都清楚时。
附录 A:术语表
ARR / MRR。 annual / monthly recurring revenue。
ASC 606。 美国 revenue recognition standard,决定何时确认合同收入。
Bill shock。 客户因 usage 超预期而收到意外高账单。
Burn Multiple。 net burn / net new ARR。
CAC Payback。 CAC 由 gross margin 偿还所需时间。
COGS。 交付产品的直接成本,包括 AI compute。
Contribution margin。 revenue 减去 variable costs 后的 margin。
Compute COGS。 foundation-model APIs、GPU、vector database、supporting infrastructure 等 AI-specific delivery costs。
Gross margin。 (Revenue − COGS) / Revenue。
Hybrid pricing。 subscription、usage、outcome、services 等 components 的组合。
Model-cost decay。 foundation-model cost 随时间下降的趋势。
NRR / GRR。 net / gross revenue retention。
Outcome attribution。 证明某个 billable outcome 由 AI Worker 产生的 telemetry 和 audit process。
Per-call pricing。 按 API call、query、token、minute 等 usage unit 收费。
Per-outcome pricing。 按完成结果收费。
Runway。 cash / monthly burn。
Usage-based pricing。 按实际 consumption 收费。
Value-based pricing。 按客户可衡量经济收益的一定比例收费。
Variable consideration。 取决于未来 usage、outcomes 或 performance 的合同收入部分。
注释
本文综合了 SaaS finance、usage-based pricing、ASC 606 revenue recognition、AI infrastructure economics、venture board reporting 和 AI-native operator practice。具体 accounting treatment 应由公司 auditor、controller 或合格 finance advisor 根据合同和 jurisdiction 确认;本文提供 operating framework,不替代会计意见。