AI 成本账：LLM 推理成本链条分析

amei2000go

发布于 2025-7-11 07:20

浏览

0收藏

一、背景

最近看到 SemiAnalysis 团队制作了一个《AI Token Factory Economics Stack》的图片（来自 SemiAnalysis (@SemiAnalysis_) / X [1]），深入分析了 LLM 推理成本链条中各个参与者的成本与利润情况，涵盖从硬件资本支出（Neocloud）、推理服务提供商（Inference Providers）到终端应用层（Applications）的全栈视角，并且以 H200 GPU 为例，进行定量分析。

AI 成本账：LLM 推理成本链条分析-AI.x社区

考虑到之前主要关注整体的 CapEx（资本成本）和 Opex（运维成本），因此借此机会进一步理解成本计算的相关逻辑和方式。

二、Neocloud（基础设施）

Neocloud 主要是云厂商，提供 GPU 租赁服务，比如 Lambda、Vast.ai、Oracle Cloud 等。

2.1 关键概念

Capital Cost per GPU（资本支出）：可以理解为一次性支出的买入价，是资产价格。

Colocation Cost（托管成本）：指将 GPU 服务器放入一个已有数据中心机房中，由该数据中心提供电力、冷却、物理空间、安全、网络接入等基础设施服务所需支付的费用。简单理解就是：“我出设备，你出机房+电力+空调+网络，我按月支付托管费用。”

Cost of Capital（资本成本率）：使用这笔资金（一次性支出的资产成本）必须计算“时间成本”，比如一个企业获得一个 GPU 有两种方式：

现金购买 GPU（自有资金）：这些钱本可以去买理财、股票，比如年回报 ≥13.3%。
贷款买 GPU（外部融资）：银行利率是 13.3%。

2.2 数据指标

核心数据：

Capital Cost per GPU（每张 H200 GPU 的资本支出）：$34,698
Colocation Cost（托管成本）：$130 / kW / 月
Electricity Cost（电费）：$0.087 / kWh
Cost of Capital（资本成本率）：13.3%/年
这些值用于计算 GPU 的总拥有成本（TCO）为： $1.66/hr/GPU。

收益指标：

Neocloud Pre-tax Profit Margin（税前利润率）：16.8%
Neocloud Rental Price（对外出租价格）：$2.00/hr/GPU

总结：说明云厂商通过租赁 GPU，可以获得 16.8% 的利润空间。

2.3 计算方式

2.3.1 CapEx

其中的 Capital Cost per GPU 和 Cost of Capital 共同构成了我们常说的 CapEx，通常将其在 GPU 的使用生命周期内进行摊销。业内常见最短的摊销周期是 3 年，主要是 AI 硬件的更新迭代周期往往不会超过 3 年；AI 模型、应用场景也在不断演进，3 年后通常也会有更有性价比的 GPU 出现。然而，即使新的 GPU 开始投入使用，上一代 GPU 仍可持续发挥一定性能价值。在公司内，通常会进一步将摊销周期延长到 4 年甚至 5 年。

如果按照 3 年的摊销周期，则相应的成本为：

34698*(1+13.3%*3)/(3 * 365 * 24) = $1.847/hr/GPU

如果按照 4 年的摊销周期，则相应的成本为：

34698*(1+13.3%*4)/(4 * 365 * 24) = $1.517/hr/GPU

如果按照 5 年的摊销周期，则相应的成本为：

34698*(1+13.3%*5)/(5 * 365 * 24) = $1.319/hr/GPU

当然，有些时候也会采用年金法按固定时间周期（比如每年）平均“摊销”，则对应的年金 A 可以表述为（假设还是按照 4 年的摊销周期）：

AI 成本账：LLM 推理成本链条分析-AI.x社区

则相应的成本为：

11928/(365*24) = $1.362/hr/GPU

2.3.2 Opex

其中 Opex 主要对应上述的 Colocation Cost 和 Electricity Cost，折算到每 GPU 每小时的成本为：

Colocation Cost：130 / 30 / 24 ≈ $0.181/hr/GPU

Electricity Cost：0.7kW × $0.087 = $0.061/hr/GPU

H100/H200 GPU 的峰值功耗为 700W，而 8 卡 DGX H100/H200 的峰值功耗为 10.2kW（还额外包括 CPU、散热等其他组件）。实际整机的最大功耗通常只能达到 70%-80% 左右，因此平均到每个 GPU 的功耗可能在 1kW 左右，考虑到 GPU 并非始终满载运行，且这里的电力成本占比相对较小，故依然按 700W 进行估算。综上，总的 Opex 为：

0.181 + 0.061 = $ 0.242/hr/GPU

2.3.3 TCO

基于上述 CapEx 和 Opex 可以推出大概的 TCO（Total Cost of Ownership）为：

3 年期摊销：1.847 + 0.242 = $2.089/hr/GPU

4 年期摊销：1.517 + 0.242 = $1.759/hr/GPU

5 年期摊销：1.319 + 0.242 = $1.561/hr/GPU

4 年期摊销（年金法）：1.362 + 0.242 = $1.604/hr/GPU

而上述表格中估计的 TCO 为 $1.66/hr/GPU，而实际的租赁价格 Neocloud Rental Price 为 $2/hr/GPU。由此可见，以约 4 年期摊销为基础的成本估算较为合理，按照上述价格，Neocloud 大概有 16.8% 的利润空间。

2.4 补充

需要说明的是，随着供需关系变化、硬件及算法的迭代，GPU 租赁的价格往往会随着时间的发展逐渐降低，上述只是比较粗略的计算方式。

比如说，H100 刚上市时的租赁价格甚至高达 $8/hr/GPU，一年前也有 $4-$5 左右。如下图所示，一年前 Lepton AI 上 H100 的租赁价格为 $4.2/hr/GPU。

AI 成本账：LLM 推理成本链条分析-AI.x社区

而现在（更新于 2025 年 6 月 25 日）很多云厂商的价格已经下降到 $2-$3 之间。此外，对于大客户或长期租赁通常还能拿到更低的价格（来自：Nvidia H100 - GPU Price Comparison [2]）：

AI 成本账：LLM 推理成本链条分析-AI.x社区

三、Inference Provider（推理服务提供商）

3.1 资产成本与利用率

其中的主要成本是 GPU 租赁成本，也就是上述由 Neocloud 决定的 $2.00/hr/GPU。

租赁的 GPU 不可能 100% 使用，对于 Online 流量（比如 OpenAI 的在线 Chat 场景），受流量波动影响，GPU 难以实现持续满负荷运行。此时，可以考虑使用 Offline 流量（比如 Batch Process，当然价格可能更便宜）来充分利用波谷的空闲资源。图中作者简化为 Effective Utilization Rate（有效利用率）为 75%，也就是 GPU 只有 75% 的有效使用。

3.2 推理成本

AI 成本账：LLM 推理成本链条分析-AI.x社区

3.3 销售定价 & 利润率

在资产成本与利用率确定的情况下，Inference Provider 想要提升利润率的主要手段就是提升 LLM 推理性能，降低推理成本。这里作者以 TRT-LLM 框架为例，使用 FP8 推理，以保证尽可能的高效推理。以 1K 输入 + 4K 输出（总共 5K Token）为例，其推理耗时 190s，吞吐可以达到 442 Tokens/s/GPU。

基于上述数据可以推算出：

有效 Tokens/hr/GPU：442 * 3600 * 75% = 1,193,400

考虑到 GPU 租赁成本为 $2，则每百万 Token 成本为：

Inference Compute Cost：2 / 1,193,400 * 1,000,000 = $1.676

相比于输入、输出 Token 按照相同价格计费的方式，输入输出分别计价的方式会更加灵活，比如 OpenAI 就是这种方式。并且其早期的定价策略为：输出价格为输入价格的 3 倍。后来都改成 4 倍，如下图所示。对于用户而言，如果是长输入、短输出的场景（比如文献总结、知识库等），使用这种方式也许可以获得更低的总成本。

四、Application（应用产品）

Application 主要是 ChatGPT、Perplexity、Claude、Notion AI、Cursor 等终端产品。

4.1 用户层面关键数据

假设每个用户每月使用 Token 数量为：6M Tokens。

Token 单价为：$2.00 / M Tokens。

每月活跃用户数（MAU）为：1.8M。

月均用户收入（Average Revenue per User）：$20。

4.2 利润率

基于上述数据可以得出：

每月每用户毛利（Gross profit per User per Month）：20 - 6 * 2 = $8

应用层毛利率（Application Gross Margin）：(20 - 8) / 20 = 40%

五、利润率优化

考虑到上述 3 层中每一层都需要保留比较可观的利润率，那么针对不同的“用户”也就可以针对性的采用相应的方案来降低成本。

5.1 个人或小规模初创公司

对于个人或小规模初创公司，可以考虑从直接使用按月付费的应用切换为使用推理服务提供商的 API，然后接入支持自定义 API 的应用或者开源替代，甚至可以考虑自研应用。

当然，直接使用推理服务提供商的 API 也存在一定问题，例如可能带来额外的模型切换成本。此时也可以考虑 OpenRouter 这类 AI 模型聚合 + API 中介平台。它类似于 AI 模型的 API 市场，为开发者和用户提供各种 LLM 的统一入口，用户通过一个统一的 API，就能调用多个不同厂商的模型，减少开发和切换成本。

OpenRouter 这类平台主要靠如下几种模式获得利润：

API 调用抽成 / 加价（最主要）

对通过平台调用模型的 API 收取费用，并在推理服务提供商的价格基础上加价。

允许开发者主动注册并接入自有模型，平台提供计费、鉴权等能力，并从其中抽成。

用户订阅 / 使用套餐

类似于 OpenAI 的包月服务。

增值服务

比如提供额外的日志、统计分析、鉴权等服务。

5.2 中型公司

对于中等规模的公司，可以考虑进一步跳过推理服务提供商，直接从 Neocloud 厂商租赁 GPU，然后独立部署相应的模型。当然，这个前提是使用的开源模型或者自研的模型。

针对这个场景，也需要“用户”储备相应的 LLM 部署、优化能力，并且购买或者自建相应的依赖组件。

5.3 大型公司

对于大型公司或者有巨大流量的中小型公司，直接跳过上述的 3 层，自建 IDC 必然是最优的选择，可以直接将成本降到最低。当然，也会带来额外的负担：

一次性投入成本大。
相应的人力成本、运维成本增加。
弹性扩展能力降低，比如 Neocloud 上可以快速 Scale-out，而自建 IDC 需要考虑更长远的规划。（PS：这也是各大厂既有自用 IDC，又有公有云的一个显著优势）
资源利用率低，需要考虑容灾，也会有各种各样的场景，整体资源利用率可能不如预期。

自建 IDC 也有两种常见的方式，一种是完全自建，还有一种是租用机房并托管自有服务器的方式。

资源利用率可从两个维度衡量：其一是 GPU 的使用率（例如 GPU Util）；其二是算力利用效率（如 Tensor Active 或 MFU 指标）。

六、参考链接
https://x.com/SemiAnalysis_
https://getdeploying.com/reference/cloud-gpu/nvidia-h100

本文转载自AI闲谈，作者：AI闲谈

标签

LLM

推理成本

51CTO

51CTO博客

51CTO学堂

AI 成本账：LLM 推理成本链条分析