热门资讯> 正文
2025-09-18 07:47
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会!
Rubin CPX通过硬件层面的优化,实现了效率与成本的再平衡。Rubin CPX是英伟达发布的一款专为处理超长上下文AI推理任务设计的GPU,其采用了创新的解耦式推理架构,从算力性能上而言,在NV FP4精度下提供30 Peta FLOPS的计算性能;从存储性能上而言,其配备128GB GDDR7内存,内存带宽达2 TB/s;制程与封装形式上,Rubin CPX芯片采用传统FC-BGA倒装封装的单芯片设计。
Rubin CPX在硬件端带来了较大变化:托盘架构上,托盘前端则采用了模块化设计,四块子卡分布于托盘的两侧,分别为2块Rubin CPX GPX芯片与两块CX-9网卡;散热方面,前端散热将由风冷升级为液冷,同时Tray内新增一块液冷板,热管和均热板将热量从每个GDDR7内存模块的背面传导至该冷板;连接器/PCB方面,采用无线缆架构,同时新增Paladin B2B连接器与位于机箱中间的PCB中板(mid plane)相连。
Rubin CPX 驱动单PCB价值量进一步提升:我们预计VR200 NVL144 单机柜PCB价值量约45.6万元,单GPU对应PCB价值量为6,333元(880美元),较GB300提升113%,同时我们预计2027年GB300 NVL72/VR200 NVL144/VR300 NVL576出货量分别为1/7/2万rack,合计10万 rack,对应PCB市场规模为69.6亿美元,较2026年增长142%。
Rubin CPX 落地进展不及预期;AI 及算力基建需求不及预期。
Rubin CPX:创新的解耦式推理架构
Rubin CPX有助于实现效率与成本的再平衡
Rubin CPX是英伟达于2025年9月9日在AI Infra Summit 2025发布的一款专为处理超长上下文AI推理任务(如百万级token的代码生成和视频生成)而设计的专用GPU。其采用了创新的解耦式推理架构,与传统GPU追求全能性不同,Rubin CPX目标是解决长上下文推理中的计算瓶颈,核心突破在于将推理过程拆分为计算密集型的上下文处理与内存带宽密集的生成阶段,显著提升了大规模上下文处理的效率和性能,通过硬件层面的优化,实现了效率与成本的再平衡。
► 上下文阶段(预填充prefill):计算密集型任务,需高速处理海量输入数据(如整段代码库、小时级视频)生成首个token输出,对算力吞吐要求高;
► 生成阶段(解码阶段Decode):内存带宽密集型任务,依赖高速内存传输和低延迟互连(NV Link)维持逐token输出的连续性,对内存性能更敏感。
图表1:Rubin CPX解耦式架构
资料来源:英伟达官网,中金公司研究部
图表2:Rubin CPX机柜及托盘示意图
资料来源:英伟达官网,中金公司研究部
从算力性能上而言,英伟达Rubin CPX在NV FP4精度下提供30 Peta FLOPS的计算性能,兼顾高性能与推理精度,满足密集型计算需求,同时注意力处理速度(Attention Acceleration)较GB200 NVL72系统提升3倍,确保处理长序列时性能不下降;
从存储性能上而言,其配备128GB GDDR7内存,内存带宽仅为2 TB/s,作为对比,双芯片设计的R200搭载288GB HBM显存,内存带宽高达20.5 TB/s,GDDR7在提供大容量的同时,成本显著降低(每GB成本不足HBM的一半),使得Rubin CPX在应对超长上下文任务时具有更好的性价比;
制程与封装形式上,CPX与R200均采用N3P制程,但封装形式上有较大不同,其中R200采用的是台积电CoWoS-L封装,而Rubin CPX芯片由于不搭配HBM且不含任何I/O小芯片,因此对CoWoS的依赖度大幅下降,采用传统FC-BGA倒装封装的单芯片设计。
图表3:英伟达历代机柜参数对比
资料来源:Semianalysis,中金公司研究部
Rubin CPX的推出使VR 200系列机架级服务器形成三大产品分支:
► VR200 NVL144:共使用72颗Rubin GPU(即144颗计算芯片),分布在18个计算托盘中,每个托盘包含4颗Rubin R200 GPU 芯片;
► VR200 NVL144 CPX:除72颗Rubin GPU外,增加了144颗Rubin CPX GPU芯片协同运作,即每个托盘包含4颗R200 GPU芯片和8颗Rubin CPX GPU芯片。
► Vera Rubin CPX双机架:由两个独立机架组成,即一个VR 200 NVL 144机架加一个VR CPX机架,后者包含144颗Rubin CPX GPU,分布在18个计算托盘上,即每个托盘包含8颗Rubin CPX GPU。
图表4:Rubin CPX 三种产品类型示意图
资料来源:Semianalysis,中金公司研究部
Rubin CPX对PCB、散热、托盘架构带来的硬件革新
在GTC 2024大会上,英伟达发布了其Oberon架构的第一代产品GB200 NVL72,时隔一年半后,第二代Oberon架构产品GB300 NVL72即将进入量产阶段,英伟达预计第三代Oberon架构Vera Rubin有望于2026年进入市场。
托盘架构方面:由于新增CPX GPU,Compute tray内结构发生了较大的改变,其中Rubin 采用SOCAMM DRAM 模块替代焊接式 LPDDR5X 内存来运行 CPU,与GB200/300相似,同一个托盘仍采用2颗VPU与4颗GPU的结构。托盘前端则采用了模块化设计,四块子卡分布于托盘的两侧,分别为2块Rubin CPX GPX芯片与两块CX-9网卡,下方分布了一个1.6T OSFP cage接口以及一个固态硬盘NVMe模块,机箱中部的一个子卡搭载了 Bluefield-4 模块,该模块包含一颗 Grace CPU 和一颗 CX-9 网卡,叠加在 Bluefield-4 模块上方的子卡装有电源分配板(PDB)。
图表5:GB200托盘平面示意图
资料来源:Semianalysis,中金公司研究部
图表6:VR200托盘平面示意图
资料来源:Semianalysis,中金公司研究部
散热架构变化:由于CPX机架功率由NVL144的190kW升级至370kW,其机箱前端散热将由风冷升级为液冷,同时Tray内前端引入一块新的液冷板,即CPX与CX 9采用夹心式排列,共享同一块液冷冷板,在PCB板的外侧,热管和均热板将热量从每个双面GDDR7内存模块的背面传导至主冷板。
图表7:VR NVL 144及CPX侧视图
资料来源:Semianalysis,中金公司研究部
图表8:CPX PCB中冷板结构变化
资料来源:Semianalysis,中金公司研究部
线缆/连接器结构变化:VR NVL 144 CPX采用无线缆架构,由于飞线电缆在组装过程中易受损,存在多重故障隐患,同时VR NVL144 CPX的高密度设计已无布线空间,因此在托盘内取消了GB200/300的飞线设计,采用Paladin B2B连接器与位于机箱中间的PCB中板(mid plane)相连。
图表9:GB200托盘内飞线示意图
资料来源:Semianalysis,中金公司研究部
图表10:VR200 托盘内中板示意图
资料来源:Semianalysis,中金公司研究部
Rubin CPX 驱动单GPU对应PCB价值进一步提升
此前,我们在《AI进化论(12):高端PCB需求跃迁,算力基座价值重构》中指出,随着AI 芯片面积增加、算力密度及功耗提升,对介电常数、介质损耗、散热等要求更为严苛,同时高频高速等材料的应用有望显著提升单颗GPU对应PCB价值量,同时预计R系列对应 PCB 价值量较B系列提升30-40%,约550美元,此次Rubin CPX的推出,我们认为有望进一步提升单GPU PCB价值量。
VR200 NVL144的PCB价值量拆解:根据英伟达的VR200方案,单个Compute tray仍包含2块主机处理器HPM主板(类似于Blackwell架构中的Bianca板)、8块CX-9网卡板,同时新增Bluefield-4模块板、8块CPX GPU板及Mid plane,我们测算:
1)处理器主板(Bianca板):每块主板用于承载 2 块独立的 Rubin GPU 和 Vera CPU,我们认为其方案与GB300类似,为一块独立的UBB及每颗GPU单独配置的OAM,其规格为M8的高多层板及HDI,价值量分别约7/8.5万元;
2)Midplane:为CPX机柜下新增方案,用于替代GB300 Tray中的跳线,连接Bianca主板、CX-9网卡和Bluefield DPU,由于其对于信号传输速率要求较高,我们认为其或将采用M9材料40L以上的高多层板,单价有望较大幅度提升,价值量约5.5万元;
3)CX-9网卡板:CX-9网卡支持PCIe 6.0协议,单通道速率达到64Gbit/s(单向),显著高于前代CX-7的200G(双向)和CX-8的400G(双向),由于信号完整性要求的提升,其或将采用M9材料20L以上的高多层板,每个托盘内含有8块NIC,单柜价值量约8.5万元;
4)CPX板:CPX GPU采用单芯片FC-BGA封装,配备128GB GDDR7 内存,且每个托盘内含有8个CPX GPU,我们认为其大小及参数上与H100芯片相似,故单价面积可参考H100的OAM加速卡,测算得单柜价值量约8.5万元;
5)Switch Tray:目前Rubin方案中Switch Tray数量仍为9个,每个托盘集成2颗NVSwitch5芯片,我们认为目前具体方案或将在M9 高多层及M8 高阶HDI中最终确定,测算得单机柜价值量为6.5万元;
6)其他:包含Bluefield-4及电源板等,我们认为其价值量合计约1万元;
根据上述测算,我们预计VR200 NVL144 单机柜PCB价值量约45.6万元,单GPU对应PCB价值量为6333元(880美元),较GB300提升113%,其中价值增量主要来源于Mid plane、CX-9及CPX GPU等应用。
图表11:VR200 NVL144 PCB价值量测算
资料来源:Semianalysis,中金公司研究部
此外,由于NVL576 机柜内托盘密度较高,较难继续使用铜线对每个刀片进行连接,因此英伟达将采用 PCB 代替铜缆进行互联,将机架背面的 NV Switch 刀片通过一块正交背板连接到计算刀片,旨在取代传统的线缆方案以缩短信号传输路径,减少连接器数量,从而提升信号传输速率和系统良率,我们预计其或将搭配M9材料,方案上选取3/4次20+层高多层板等压合,预计单板价值量约3~4w美元,对应单柜价值量约12~16w美元,对应单GPU价值量约500美元,因此我们认为尽管Rubin Ultra对于PCB的具体要求尚未明确,但受益于机柜方案的改变,正交背板的应用有望增加单GPU 500美元的价值量,达1,380美元。
图表12:英伟达NVL576正交背板示意图
资料来源:Semianalysis,中金公司研究部
我们在《AI进化论(12):高端PCB需求跃迁,算力基座价值重构》中测算得2025/2026 年对应 PCB 市场规模分别为15.3/26.4亿美元,我们认为Rubin CPX的推出对2027年PCB价值量有望显著提升,我们预计2027年GB300 NVL72/VR200 NVL144/VR300 NVL576出货量分别为1/7/2万rack,合计10万 rack,对应72/504/144万颗GPU,对应2027年英伟达对AI PCB采购市场规模为69.6亿美元,约500亿元,较2026年增长142%。
图表13:英伟达AI PCB采购市场规模预测
资料来源:英伟达官网,中金公司研究部
风险提示
Rubin CPX 落地进展不及预期:尽管英伟达Rubin CPX架构在理论上展现了显著的性能与成本优势,但其实际落地进程仍面临多重不确定性,其“解耦推理”架构需软件栈(如Dynamo平台)深度优化以发挥分工优势,若生态工具链成熟度不足,实际性能可能低于理论值。
AI 需求及算力基建需求不及预期:我们认为,AI 的蓬勃发展驱动算力需求持续提升,推升AI 硬件需求,驱动 PCB 产业快速增长。若 AI 大模型或应用落地不及预期、或商业化变现之路受阻,或影响以头部云厂商为代表的 AI 产业参与方对 AI 相关基础设施的投资力度和决心,可能会对上游 AI 硬件设备的市场增速、产品迭代速度产生不利影响,最终影响 PCB 市场需求。
本文摘自:2025年9月17日已经发布的《AI进化论(17):解耦式推理创新,Rubin CPX驱动PCB市场迭代升级》
江磊 分析员 SAC 执证编号:S0080523070007 SFC CE Ref:BTT278
温晗静 分析员 SAC 执证编号:S0080521070003 SFC CE Ref:BSJ666
贾顺鹤 分析员 SAC 执证编号:S0080522060002
彭虎 分析员 SAC 执证编号:S0080521020001 SFC CE Ref:BRE806
李澄宁 分析员 SAC 执证编号:S0080522050003 SFC CE Ref:BSM544
何欣怡 分析员 SAC 执证编号:S0080525080005
查玉洁 分析员 SAC 执证编号:S0080524110001