重新思考 AI TCO:为何每 Token 成本才是唯一重要的指标

会议新闻 来源:医谷网
2026
05/07
12:33
医谷网 会议新闻

传统数据中心过去主要用于数据的存储、检索与处理。但在生成式 AI 与代理式 AI 时代,这些设施已演变为 AI Token 工厂。随着 AI 推理成为其核心工作负载,它们的主要产出已转变为以 Token 形式制造的智能。

这一转变也需要对包括总体拥有成本(TCO)在内的 AI 基础设施的经济效益评估的方式相应地进行调整。然而,在评估 AI 基础设施时,企业仍过于关注芯片峰值规格、计算成本,或每美元所能获得的浮点运算性能,即每美元 FLOPS。

关键区别在于:

算力成本是企业为 AI 基础设施所支付的费用,无论是从云服务提供商租用,还是在本地自建部署。

每美元 FLOPS 衡量的是企业每投入一美元所获得的原始算力,但原始算力并不等同于现实世界中的 Token 产出。

每 Token 成本指的是企业生成并交付每一个 Token 的综合成本,通常以每百万 Token 成本来表示。

前两者仅是投入指标。但当业务围绕产出运转时,只针对投入优化,本质上是一种根本性的错配。

每 Token 成本决定了企业能否实现 AI 的规模化盈利。它是唯一能够直接综合反映硬件性能、软件优化、生态系统支持以及实际利用率的 TCO 指标,而 NVIDIA 在这一指标上实现了行业最低的每 Token 成本。

能够降低每 Token 成本的因素有哪些?

要理解如何优化每 Token 成本,首先需要了解用于计算“每百万 Token 成本”的计算公式。

在这个公式中,许多评估 AI 基础设施的企业往往只关注分子项,即每 GPU 每小时成本。对于云部署而言,这对应支付给云服务提供商的小时费用;而对于本地部署,则是通过摊销自有基础设施得到的等效小时成本。然而,降低每 Token 成本的关键在于分母,即最大化实际交付的 Token 产出。

这个分母传递了两层商业含义:

最小化每 Token 成本:当 Token 产出增加被代入公式时,将降低每 Token 成本,从而提升每一次交互服务的利润空间。

最大化收入:每秒交付更多 Token,也意味着每兆瓦产出更多的 Token,这将带来更高的智能供给能力,使 AI 驱动的产品与服务能够在相同基础设施投入下创造更高收入。

因此,如果只关注分子,就会忽视真正决定分母的因素。可以将其理解为一个“推理冰山”:分子位于水面之上,直观可见且易于横向比较;而分母则隐藏在水面之下,那才是决定实际 Token 产出的关键因素。对 AI 基础设施的准确评估,应从探究水面之下的部分开始。

表层问题:

每 GPU 小时的成本是多少?

峰值 PetaFLOPS 性能和高带宽内存容量是多少?

每美元可获得多少 FLOPS?

深度成本分析:

每百万 Token 的成本是多少?尤其是针对大规模混合专家(MoE)推理模型(当前部署最广泛的一类 AI 模型),其每百万 Token 成本是多少?

每兆瓦可交付多少 Token 产出?尤其是对本地部署而言,由于在土地、电力与基础设施上的资本投入较大,最大化每兆瓦所产生的智能产出至关重要。

纵向扩展(scale-up)互连是否能够支撑 MoE 模型所需的“all-to-all”通信模式?

是否支持 FP4 精度?推理栈是否能够在保持高精度的同时充分利用 FP4?

推理运行时是否支持投机解码或多 Token 预测,以提升用户交互体验?

服务层是否支持解耦服务、KV 感知路由、KV 缓存卸载以及其他优化?

平台是否支持代理式 AI 的独特工作负载需求,包括超低延迟、高吞吐以及长输入序列长度等?

平台是否支持从训练、后训练到大规模推理的完整生命周期,并覆盖所有模型架构,从而实现基础设施可互换性与高利用率?

这些算法、硬件与软件化中的每一项优化都必须有效并且是可以相互集成的,否则分母项将无法成立。一块看似“更便宜”的 GPU,如果其每秒 Token 产出数量明显更低,反而会导致更高的每 Token 成本。能够做到全栈真正优化的 AI 基础设施,才能够确保每项优化都相互增强,从而持续提升整体效率。

为什么每 Token 成本比每美元 FLOPS 更重要?

以下 DeepSeek-R1 AI 模型的数据展示了理论指标与实际商业结果之间的差异。

仅从算力成本来看,NVIDIA Blackwell 平台的成本似乎约为 NVIDIA Hopper 的 2 倍,但算力成本并不能说明这项投入究竟能带来多少实际产出。如果仅以每美元 FLOPS 进行分析,相较于 NVIDIA Hopper 架构,NVIDIA Blackwell 仅有约 2 倍优势。然而,实际结果却呈现出数量级差异:Blackwell 每瓦的 Token 产出量是 Hopper 的 50 倍以上,每百万 Token 的成本降低至其 1/35 左右。 

注:数据来源于 NVIDIA 分析报道及 SemiAnalysis InferenceX v2 基准测试。

这一悬殊差异表明,相较于上一代 Hopper,NVIDIA Blackwell 在商业价值上实现了巨大的跃迁,其提升幅度远超系统成本的增加。

如何选择合适的 AI 基础设施?

仅凭算力成本或每美元理论 FLOPS 来比较 AI 基础设施,不仅是不充分的,也无法真实反映推理经济学。正如数据所展示的,要准确评估 AI 基础设施的营收潜力与盈利能力,需将衡量维度从输入指标转向每 Token 成本和实际 Token 产出量。

NVIDIA 通过在计算、网络、内存、存储、软件以及合作伙伴技术上的极致协同设计,实现了业内最低的 Token 成本与最高的 Token 吞吐量。此外,诸如 vLLM、SGLang、NVIDIA TensorRT-LLM 以及 NVIDIA Dynamo 等基于 NVIDIA 平台构建的开源推理软件的持续优化,意味着在现有 NVIDIA 基础设施部署后,Token 产出仍可不断提升,每 Token 成本会持续下降。

领先的云服务提供商与 NVIDIA 云合作伙伴,已在规模化部署中充分体现这一优势。包括 CoreWeave、Nebius、Nscale 与 Together AI 在内的合作伙伴,已部署 NVIDIA Blackwell 基础设施,并对其技术栈进行了优化,为企业提供当前最低的 Token 成本,同时充分发挥 NVIDIA 在硬件、软件与生态系统协同设计方面的全部优势,使每一次 AI 交互的处理都建立在这一完整体系之上。

标签

为你推荐

诺和诺德:司美格鲁肽“保护期”将持续至2027年4月资讯

诺和诺德:司美格鲁肽“保护期”将持续至2027年4月

近日,诺和诺德全球总裁兼首席执行官杜麦克(Mike Doustdar)首度明确表态:司美格鲁肽在中国的监管数据保护将持续至2027年第二季度,届时仿制药才能开始合法进入市场。

2026-06-21 13:42

取保候审,博瑞医药实控人涉嫌操纵证券市场案资讯

取保候审,博瑞医药实控人涉嫌操纵证券市场案

6月18日晚间,博瑞医药发布公告,公司于2026年6月18日收到公司实际控制人袁建栋先生通知,因涉嫌操纵证券市场案,根据《中华人民共和国刑事诉讼法》相关规定,苏州市公安局对袁...

2026-06-21 13:05

《中国阻塞性睡眠呼吸暂停公众认知调研报告》发布资讯

《中国阻塞性睡眠呼吸暂停公众认知调研报告》发布

OSA认知与诊疗缺口待补,专家呼吁推动早筛早诊

2026-06-21 11:28

第四批全国中成药集采与第二批接续采购中选结果资讯

第四批全国中成药集采与第二批接续采购中选结果

近日,全国中成药联合采购办公室正式发布《关于公布全国中成药采购联盟集中采购中选结果的通知》,备受业界关注的第四批全国中成药集中带量采购及第二批接续采购中选结果尘埃落定。

2026-06-20 21:08

科创板支持脑机接口、基因工程相关创新企业上市,已有企业申报资讯

科创板支持脑机接口、基因工程相关创新企业上市,已有企业申报

近日,上交所发布《上海证券交易所科创板企业发行上市申报及推荐暂行规定(征求意见稿)》,对外公开征求意见。

2026-06-19 22:12

又是一个父亲节,关注和做好前列腺癌早期筛查资讯

又是一个父亲节,关注和做好前列腺癌早期筛查

前列腺癌被称为中老年男性的隐形杀手——隐形在于早期几乎没有症状,杀手则在于部分恶性程度高的前列腺癌进展迅速,一旦发生转移,预后显著变差。

2026-06-19 14:59

低活跃预测不等于低风险,台风、飓风、强降雨和洪涝企业应做好哪些应对?资讯

低活跃预测不等于低风险,台风、飓风、强降雨和洪涝企业应做好哪些应对?

随着北半球夏季极端天气高发期到来,台风、飓风、强降雨和洪涝等风暴相关风险进入重点关注阶段。世界领先的健康和安全风险服务企业国际SOS提醒在全球运营的企业:风暴季准备的关...

2026-06-18 21:41

药石科技发布“绿色智能化学引擎”战略,强化下一代疗法CRDMO平台能力资讯

药石科技发布“绿色智能化学引擎”战略,强化下一代疗法CRDMO平台能力

CPHI China 2026期间,南京药石科技股份有限公司(股票代码:300725 SZ,以下简称“药石科技”)在上海举行集团战略发布会

2026-06-18 13:49

第二批全国中药饮片集采中选结果公示资讯

第二批全国中药饮片集采中选结果公示

6月16日,全国中药饮片联盟集中采购拟中选结果正式公布,根据公示结果信息,共有21465条拟中选信息,公示期至6月22日。

2026-06-18 10:42

因美纳在华推出移动式生信分析解决方案,推进蛋白质组学生态合作资讯

因美纳在华推出移动式生信分析解决方案,推进蛋白质组学生态合作

近日,因美纳正式推出“因美纳生信移动宝”,该生信分析解决方案采用移动式部署模式,旨在将DRAGEN™驱动的高性能算力直接送达科研与临床研究一线。同期,因美纳进一步强化其在...

2026-06-18 09:55

治疗早泄药物国内获批资讯

治疗早泄药物国内获批

6月15日,国家药监局药品批准证明文件送达信息显示,Plethora Solutions 和复星医药(600196 SH;02196 HK)联合申报的 5 1 类药物利多卡因丙胺卡因气雾剂获批上市,此为...

2026-06-17 21:36

新诺威名称变更为石药创新资讯

新诺威名称变更为石药创新

6月16日晚间,新诺威发布公告称,公司证券简称由新诺威变更为石药创新,证券代码“300765”保持不变,变更日期为2026年6月17日。

2026-06-17 09:13

第四届诺华中国患者日举办,照亮更有温度的患者支持生态资讯

第四届诺华中国患者日举办,照亮更有温度的患者支持生态

6月16日,第四届诺华中国患者日在上海成功举办。

2026-06-16 19:03

第106批仿制药参比制剂目录资讯

第106批仿制药参比制剂目录

经国家药品监督管理局仿制药质量和疗效一致性评价专家委员会审核确定,现发布仿制药参比制剂目录(第一百零六批)。

2026-06-16 16:18

武田制药公布Oveporexton新关键性研究数据资讯

武田制药公布Oveporexton新关键性研究数据

在第40届美国联合专业睡眠学会年会(SLEEP 2026)上公布的3期研究次要及探索性终点结果进一步显示,Oveporexton在广泛的日间及夜间症状方面带来改善

2026-06-16 12:58

兆科眼科硫酸阿托品滴眼液澳洲上市注册申请获受理资讯

兆科眼科硫酸阿托品滴眼液澳洲上市注册申请获受理

6月15日,兆科眼科发布公告称,公司就其用于减慢儿童近视加深疗法的硫酸阿托品滴眼液(0 02%剂量,产品代码:NVK002)提出的注册申请已获澳洲Therapeutic Goods Administrati...

2026-06-16 10:53

和铂医药和百图生科宣布联合成立AI医药公司资讯

和铂医药和百图生科宣布联合成立AI医药公司

6月15日,和铂医药和百图生科联合宣布,双方将建立全面战略合作伙伴关系,联合创立一家面向全球市场的新型AI管线研发公司MegaStream Techbio。

2026-06-16 10:25

陪审团认定安进故意侵权,和铂医药最高可获6060万美元赔偿资讯

陪审团认定安进故意侵权,和铂医药最高可获6060万美元赔偿

今日,和铂医药(02142 HK)发布公告,美国特拉华州联邦地区法院的陪审团就和铂医药针对安进公司(Amgen Inc )及其子公司Teneobio, Inc (以下合称“安进”)提起的专利侵...

2026-06-15 21:28

应对超重肥胖严峻挑战,辉瑞新一代GLP-1埃诺格鲁肽头对头研究验证临床优势资讯

应对超重肥胖严峻挑战,辉瑞新一代GLP-1埃诺格鲁肽头对头研究验证临床优势

超重与肥胖已是全球不可忽视的公共卫生挑战。

2026-06-15 19:58

年内创新药上市企业最大回购计划资讯

年内创新药上市企业最大回购计划

港股上述企业,中国生物制药(正大天晴为其旗下公司)今日发布公告,2026年6月12日,公司董事会决议通过一项股份购买计划,将视市场情况于未来12个月以不超过20亿港元总价在公开...

2026-06-15 15:56