简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

中金 | Token启示录(二):单位经济模型探讨

2026-05-12 07:49

  炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!

中金研究

2026年开年以来,Agentic AI在全球范围内加速渗透,驱动大模型API消耗量指数级提升,Token Factory也成为了模型厂商短期增长最快、商业化前期最为确定的商业模式。市场也对于这一商业模式下,大模型厂商的单位Token经济模型以及中长期的商业模型更为关注。本篇报告作为系列的第二篇,也将从单位Token的视角入手,探讨其成本端与价格端的经济模型假设。

Token单位成本测算:在这里我们假设均使用NVL72机柜(72颗GB200)作为推理的算力基座,而推理端输出的是类似于GPT-5、Claude-4.5系列的海外头部万亿参数大模型,基于此进行成本测算。我们分别假设是采用算力自建和算力租赁两种方式,测算得算力自建角度,推理成本估计在2美元/百万Tokens左右;算力租赁角度,推理成本估计在2.6美元/百万Tokens左右。而推理端的Tokens输出效率是决定综合成本的核心因素。

Token单位价格测算:大模型Tokens的定价较为透明,但使用结构会对平均价格带来一定影响,Agent相比传统的Chatbot应用在Tokens消耗比例层面会有明显更大的输入占比。从趋势上看,计算效率提升推动同等智能水平Tokens成本与价格降低,但更高智能水平的模型Tokens仍会持续享有溢价。而目前国产模型Tokens定价相较海外仍有折价,随模型能力提升具有提价空间。

Token经济模型分析:我们基于单机柜经济模型假设,进行Tokens生产的理想毛利率测算,得出在自建算力的情景下,Token Factory的理论毛利率可达到60%的水平。而目前Token Factory也已成为全球大模型当下主流的商业模式,海外头部模型厂商的业务毛利率也已达到40%-50%。我们认为Token Factory模式下模型公司毛利率呈现正向趋势,未来有望带来大模型净利润端以及整体ROI的跑通。

风险

Agentic AI渗透率波动;AI ROI不及预期;测算可能存在误差。

Token单位成本测算

基于算力自建和算力租赁角度的Tokens成本测算:对于Tokens在推理端的成本测算相对透明,具有较多的真实数据可以进行参考。在这里我假设均使用NVL72机柜(72颗GB200)作为推理的算力基座,而推理端输出的是类似于GPT-5、Claude-4.5系列的海外头部万亿参数大模型,基于此进行成本测算。我们分别假设是采用算力自建和算力租赁两种方式。

算力自建角度,百万Tokens推理成本测算估计在2美元左右。假设是均采用自建算力的模式,根据目前NVL72单机柜650万美元左右的Capex规模,结合我们假设的不同部分的折旧年限,测算得单机柜的年折旧成本在100万美元左右;再结合NVL72机柜所需要的电费以及维护等其他费用成本得到总成本。而在输出端,我们假设目前GB200推理GPT-5、Claude-4.5级别的万亿参数模型,可以实现1,000 Tokens/s的输出速度,并得到其年总输出Tokens数,最终两者相除得到平均每百万Tokens对应的成本在2美元左右。

图表1:基于算力自建Capex角度的Tokens成本测算

资料来源:Nvidia官网,美国能源管理局,国家电网,中金公司研究部

资料来源:Nvidia官网,美国能源管理局,国家电网,中金公司研究部

算力租赁角度,百万Tokens推理成本测算估计在2.6美元左右。假设是均采用租赁算力的模式,我们则是参考目前Coreweave等海外主流算力租赁平台的价格,近期由于全球推理算力的旺盛需求,算力租赁价格涨幅较快,我们取10美元/GPU Hour,并考虑到一些长约等价格折扣和平滑因素给予一定折价,在输出端我们也采用和上面算力自建类似的假设,最终得出每百万Tokens对应的总成本在2.6美元左右。

图表2:基于算力租赁Opex角度的Tokens成本测算

资料来源:Coreweave官网,中金公司研究部

资料来源:Coreweave官网,中金公司研究部

推理端的Tokens输出效率是决定综合成本的核心因素。我们这里假设的是GB200单卡对于万亿参数规模模型,能够实现1,000 Tokens/s的推理效率,这个参数实际上也具有较大的弹性,即使是采用同样的GPU,其实现的推理效率和推理模型的总参数、激活参数量,算法端的优化效率,Infra端的优化效率都有较大的关联性。英伟达曾经过B200单GPU在gpt-oss模式上可达 60,000 Tokens/s的推理效率,但gpt-oss是一个参数量很小的模型(120B参数),且应是在理想的优化环境下。通常来讲,参数规模更小、更注重推理成本优化的国产厂商在采用同等级推理卡的情况下会有更优的推理效率表现。

Token单位价格测算

大模型Tokens的定价较为透明,但使用结构会对平均价格带来一定影响。大模型Tokens在输入端和输出端都有公开的定价,由于输出端Decoding的计算量少于输入端的Prefilling和Encoding,因此输出Tokens的定价一般是输入的几倍。但在实际使用的过程中,随着用户行为的变化,其输入和输出的比例会有所变化;同时在复杂长程任务的执行过程中,也可能会有更多的Tokens命中缓存。因此最终的平均Tokens价格实际上会由多种因素来决定。

Agentic AI应用中输入Tokens的占比会显著提升。由于Agent在每轮工作流执行时都会读取更长的上下文、更复杂的工具定义与约束,保留更多的状态,同时也会处理更多长文档、网页、长代码等更大规模的输入内容,因此Agent相比传统的Chatbot应用在Tokens消耗比例层面会有明显更大的输入占比。因此如果仅从平均价格的角度来测算,Agent所消耗的Tokens的平均价格可能会低于ChatBot,但其消耗的总Tokens量同时也会是ChatBot的几十甚至上百倍。

图表3:海外头部大模型的Tokens平均价格测算

资料来源:Coreweave官网,中金公司研究部

资料来源:Coreweave官网,中金公司研究部

计算效率提升推动同等智能水平Tokens成本与价格降低,但更高智能水平的模型Tokens仍会持续享有溢价。从大方向上来看,单卡以及集群的推理效率持续提升,对于同等规模的模型来看,单位Tokens的成本和价格趋势都应有所降低。但在另一方面,模型的智能水平也会随着参数的规模、架构的优化而进一步提升,因此也会有更高阶智能的Tokens出现。因此我们一方面会看到,同等智能水平的Tokens的价格会持续降低,但是新一代的更加智能的模型价格,普遍又会回到先前较高的水平。且从结构上看,我们认为未来的模型Tokens也会在价格上有所分层,更加智能的模型会有更高的价格溢价,解决更高价值的任务;而同时也会有主打性价比的模型,以相对更低的价格去处理更多的长尾任务。

国产模型Tokens定价相较海外仍有折价,随模型能力提升具有提价空间。目前国产模型的API定价相比海外仍普遍较低,整体在对标海外模型的5%-30%不等的水平。虽然由于较小的模型参数规模、算法和推理端的优化,国产模型普遍的推理成本也相较海外较低,但结合定价之后我们认为国产模型的毛利水平整体还是低于海外模型,目前仍由于国内的付费习惯和竞争环境存在一定折价。而从能力水平来看,我们认为国内头部模型和海外头部模型之间整体的动态差距在6-9个月,随着国产模型持续跟进海外头部厂商,以及国内Agentic AI渗透下对于大模型推理需求的迅速提升,国产模型的价格仍有持续的上升空间,未来有望提升至对标海外模型的30%-50%的水平。

图表4:海外公司旗舰模型历史价格复盘(按同时期高端模型输出端每百万Tokens定价)

资料来源:各公司官网,中金公司研究部

资料来源:各公司官网,中金公司研究部

图表5:国内公司旗舰模型历史价格复盘(按同时期高端模型输出端每百万Tokens定价)

资料来源:各公司官网,中金公司研究部

资料来源:各公司官网,中金公司研究部

Token经济模型分析

单机柜经济模型假设,进行算力租赁和Tokens生产的理想毛利率测算。基于我们上面的假设和测算,我们尝试建立基于单机柜的Tokens经济模型,测算得如果是将机柜算力全部向租赁的情况下,理论上的经营利润率可达到20%;而如果是将机柜算力全部用于Tokens生产,并且产生的Tokens都能够以4美元/百万Tokens的均价售出的情况下,理论上的API业务的经营利润率可以超过60%;而如果是都采用租用算力进行Tokens生产,则模型端的经营利润率,也就是模型的溢价大概是40%左右的水平。

图表6:基于算力租赁Opex角度的Tokens成本测算

资料来源:Nvidia官网,美国能源管理局,国家电网,Coreweave官网,中金公司研究部

资料来源:Nvidia官网,美国能源管理局,国家电网,Coreweave官网,中金公司研究部

Token Factory也已成为全球大模型当下主流商业模式。近几个月以来,以Token Factory作为核心商业模式的Anthropic展现出高度陡峭的ARR增长曲线,截至3月底其ARR已超过300亿美元,超过上一轮OpenAI公布的水平。这也说明了当前在Agentic AI快速渗透的背景下,Token Factory已经成为了模型公司最为直接、弹性最大的收入增长模式。而2026年我们预计全球更多的模型厂商也会进一步向Coding和Agent方向聚焦,并且也会将Token Factory作为更核心的商业化变现模式。

目前全球头部大模型Tokens相关业务的毛利率大概也落在40%左右。而结合The Information的报道,当前OpenAI、Anthropic等海外头部大模型公司API业务的毛利率在40-50%的区间,距离理想情况中假设的水平还有空间。而相比之下,国内大模型厂商MaaS API业务毛利略低于海外,我们估计今年也将达到20-40%的区间,虽然其在推理端的成本在持续优化,但由于较低的定价,其综合毛利率仍低于海外头部模型厂商,但从趋势上看也有望随着涨价和成本端的优化实现提升。

Token Factory模式下模型公司毛利率呈现正向趋势,未来有望带来大模型净利润端以及整体ROI的跑通。目前虽然大部分模型公司在API Token端已经实现正向毛利率,但是由于在训练端的持续高额投入,在整体的净利润端仍面临较大的亏损压力。但从趋势上看,随着底层算力计算效率的优化,以及模型智能水平的进一步提升,我们认为模型端仍将长期保持溢价,Token Factory毛利有望稳中有升;而随着整体推理规模带来的收入总量的增长,训练端的算力与人员成本会被持续摊薄,中期维度会达到整体净利润端的盈亏平衡点,这一平衡点可能会在未来5年左右的区间内达到,且长期来看利润空间也较为可观。

图表7:大模型公司的假设IS模型,中期维度达到盈亏平衡,长期利润空间较为可观

注:以100作为基准资料来源:各公司公告,中金公司研究部

注:以100作为基准资料来源:各公司公告,中金公司研究部

AI应用的溢价尚未体现,未来将探索更优于Token Factory的商业模式。本质上看Token Factory的模式是“为过程付费”,同时由于随着用户用量而线性增长的推理成本,这一模式天生的利润率水平存在上限,具有一定的规模效应但并不显著。因此未来的AI更加理想的商业模式是“为结果付费”,将模型的Tokens或者说是模型的智能包装为成熟的产品,整体化向客户进行输出,进而可能会获得更高的溢价。但由于目前大模型的能力迭代仍在快速进行,AI应用的能力很大程度上还是由模型能力决定,其能够产生的溢价较为有限,并且为智能结果的定价体系也较为模糊,因此“为结果付费”的模式目前还处于早期探索中,但可能会是AI行业长期更为理想化的方向。

图表8:智谱毛利率趋势(2022A-2028E)

资料来源:公司公告,中金公司研究部

资料来源:公司公告,中金公司研究部

图表9:Token经济模型下可能的价值分配

资料来源:中金公司研究部

资料来源:中金公司研究部

风险提示

Agentic AI渗透率波动。由于AI的进步速度和Agentic AI的渗透率并非一直线性增长,因此下游的渗透存在波动,如果Agentic AI渗透率速度不及预期,可能对于模型厂商商业化速度产生影响。

AI ROI不及预期。由于现在云厂商都在大规模投入Capex布局相关算力,如果整体AI产业ROI不及预期,可能影响模型调用量、云厂商投资回报等,对市场情绪产生影响。

测算可能存在误差。由于此篇报告中我们做了较多测算,包括相关数据假设,测算结果存在相应误差,相关Token单位成本、毛利率测算可能有所波动;收入增长、训练和推理成本、人员成本、盈利测算可能存在误差。

本文摘自:2026年5月10日已经发布的《Token启示录(二):单位经济模型探讨》

于钟海 分析员 SAC 执证编号:S0080518070011 SFC CE Ref:BOP246

王之昊 分析员 SAC 执证编号:S0080522050001 SFC CE Ref:BSS168

袁佳妮 分析员 SAC 执证编号:S0080523050003 SFC CE Ref:BTM577

车姝韵 分析员 SAC 执证编号:S0080523050005 SFC CE Ref:BTM272

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。