简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

华泰计算机 | 大模型后训练:中美路径与商业闭环

2025-12-03 21:57

(来源:华泰证券科技研究)

全球主流大模型集中于中美。据Artificial Analysis数据,美国头部模型厂商包括OpenAI、xAI、Anthropic与Google;国内DeepSeek、阿里、智谱、Kimi与MiniMax较为领先。由于国内高性能算力受限,在同样强化学习+后训练范式下,海外模型偏向规模扩展,而国内擅长架构优化。投资建议上,把握算力、存储、电力、应用四个方向,我们认为:1)大模型产业的基座是算力。2)随着多模态模型的普及,存储需求同步提升。3)电力是算力的配套,是大规模集群上线的前提之一。4)AI应用是商业化落地的关键。

与市场不同的观点

1)中美大模型差异并非技术强弱,而是算力结构决定路线:海外依托高密度集群深化后训练与推理扩展,国内在算力约束下以Attention优化、MoE稀疏化和长上下文重构追求单位算力效率,因此跑分不构成统一比较锚。2)AI应用落地并非遥远,OpenAI提出统一模型、Pulse主动Agent与ACP对话内结账已使应用从“能用”进入“可经营”,电商等高频闭环场景率先具备规模化条件。3)市场普遍低估数据标注的价值,ScaleAI、SurgeAI等高收入与高客单价显示标注是模型能力上限的关键投入;需求扩张叠加客户对独立供应链偏好提升,行业定价权仍在抬升。

强化学习+后训练范式下,中美模型迭代路径分化明显

大模型能力演进呈预训练、后训练与推理全链路扩展范式。早期Scaling Law聚焦预训练(参数/数据/算力同步放大);2024年9月OpenAI发布o系列后,强化学习系统性并入后训练,推理端以思维链延长思考时间、生成更多token释放能力。海外以xAI为代表,依托约20万卡级集群,持续在推理端扩算力;国内在算力受限下更侧重架构与算法精修,Qwen、DeepSeek、Kimi等以注意力优化、稀疏化与MoE等提升训练推理效率与性价比。我们认为,两条路径将沿各自要素禀赋持续演进。

商业化已成头部厂商当前重心,应用与生态建设优先推进

OpenAI提出GPT-5统一模型后,后续的模型迭代更多属工程整合、价值再提效,研发重心上移至应用与变现。OpenAI以ACP(与Stripe)实现对话内购买,首批接入Shopify、Etsy,并与Salesforce、Walmart协作,打通“发现-支付”闭环。国内侧阿里Qwen以多模态与场景推动token上量;据云栖大会2025主题演讲,近2-3个月Token消耗倍增、百炼平台过去一年日均调用量增约15倍、FY26Q1云业务收入同比增速25.8%。我们认为,支付闭环叠加生态扩展将主导下一阶段商业化。

投资建议

1)算力:预/后训练迭代推高算力需求,OpenAI规划算力中心合计超36GW;据SCMP,出口限制后NVIDIA在华先进芯片份额95%→0,国产供给接棒。利好海外/国产算力链。2)存储:多模态/长视频抬升容量与带宽(图片1MB、音频5MB、视频≈50MB/分)。3)电力:美国新建大型数据中心并网申请到商运的中位时长继续增加,而矿场改造成本约500-800万美元/兆瓦、落地更快。4)应用:OpenAI ACP实现对话内结账贯通“触达-体验-支付”;国内入口卡位者更易受益:C端用户积累丰富的公司;2B领域,有多样化企业客户的公司。

风险提示:宏观经济波动,技术进步不及预期,中美竞争加剧。研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

与市场不同的观点

#1:中美大模型走出了差异化的发展路线

我们认为,市场以模型跑分来衡量国内外大模型技术孰优孰劣,是对国内算力供给约束的误读。海外依托高密度算力把后训练与强化学习做大做深,更易拔高长尾任务基准分;国内面临算力供给不足,并非技术不行,而是主动转向差异化路线:以Attention本质优化、MoE稀疏化、长上下文工程重构,追求单位算力的有效产出。因此,跑分并不构成统一锚;决定路径的变量是算力结构而非研究能力,分化由此形成并将延续。

海外路径正将算力重心移向后训练与推理,国内路径在算力约束下押注架构与算法精修。xAI以Scaling Law 2.0为纲,围绕后训练+强化学习+算力扩张迭代Grok。而在算力供给差距下,国内头部厂商聚焦Attention本质优化与MoE稀疏化以换取训练推理效率:Qwen3-Next在Transformer+MoE框架内引入“75%线性注意力+25%传统注意力”的混合注意力机制,显著提高长上下文与大参数场景的效率。DeepSeek V3.2以DSA(动态稀疏注意力)重构算子与内核,API输入/输出成本相比上一代模型约-50%/-75%。

#2:AI应用的转折点或将到来

市场多认为AI应用大规模落地仍远;我们认为时间点正在接近,电商等高频垂类具备先行条件。OpenAI为代表的头部厂商研发重心由底层能力转向应用与商业化:统一模型提供一致能力底座,Pulse把模型从被动问答推进为主动智能体,ACP对话内结账打通“推荐-下单-履约”,叠加Apps SDK与MCP的标准化接入与分发,以及与Shopify、Etsy等合作扩展生态,“对话即入口、即时结账”的工程与流量前提已具备。

商业化抓手成形、需求侧启动。OpenAI Pulse引入异步推理,使Agent在用户离线时持续分析与生成,算力需求由“交互次数”转向“在线Agent数量”。在2025年10月OpenAI开发者大会上,官方把ACP对话内即时结账确认为生态核心,Apps SDK与MCP提供接入、控制与富交互能力;其后宣布与Salesforce、Walmart合作扩展生态。据The Information数据,OpenAI 2030年营收预期上调至约2,000亿美元,结构从订阅/API拓展至Agent与新产品。国内侧,阿里Qwen推进多模态与2B落地;据云栖大会2025主题演讲,百炼平台模型日均调用量一年增约15倍,阿里云FY26Q1云业务收入增速25.8%。我们认为,“统一模型+Pulse+ACP”已将应用从“能用”推进到“可经营”,电商垂类具备流量、闭环与支付三要素,转折点正在逼近。

#3:数据标注的重要性被低估

市场低估标注价值,海外龙头营收与客单价已给出明确反证与强力证据。市场认为“数据标注技术含量低、价值量不高”,我们认为,高质量标注是模型训练的关键投入。据TapTwice Digital数据,ScaleAI收入由2022年2.5亿美元升至2023年7.6亿美元、2024年8.7亿美元;据路透社信息,SurgeAI在2024年营收超过10亿美元并实现盈利,单笔合同与客单价多在八位数至九位数美元区间;据TechCrunch信息与Forbes数据、Sacra数据,2025年9月,Mercor年化收入快速逼近4.5亿美元,2025年上半年录得净利润约600万美元。高收入与高客单价共同说明标注价值被系统性低估。

需求扩张叠加供给演变,行业空间与议价能力同步抬升。据Mordor Intelligence数据,全球AI数据标注市场规模预计自2025年约19亿美元增至2030年近55亿美元,年复合增长率超过20%。驱动来自更高LLM性能需求、基于LLM的Agent数据、机器人与自动驾驶感知数据、以及医疗保健与金融科技等垂直场景。供给侧出现结构变化:客户对数据隔离与供应链独立性的偏好增强。2025年6月,Meta以战略入股方式取得Scale AI 49%股权后,部分大型实验室为降低信息外泄风险倾向选择与大型互联网公司股权关系更疏的独立标注方,Surge AI承接相关迁移并实现业务跃升。我们认为,高质量标注决定模型能力上限与商业化效率,在需求与结构性变化共同作用下,行业渗透率与定价权仍有提升空间。

投资建议

1)算力

算力投资主线延续,训练与推理共振抬升需求。据OpenAI现在的算力规划,截至25年10月,成体系大型算力中心已超30GW,奠定大模型容量基础;头部厂商在预训练与后训练持续迭代,训练端扩容保持韧性,硬件投入与软件优化围绕版本与架构升级推进。Google在多国扩展AI Overview、AI Mode,25年10月AI Mode引入36种新语言/40多个新国家和地区,覆盖逾200个国家和地区;OpenAI在2025年开发者大会宣布打造应用生态,周活用户达8亿(图表29)。随用户与场景扩大,推理端对吞吐与响应要求提升,算力需求走强。我们认为,推理侧边际增量更为突出,对上游提出更高并发与更低时延的配置要求。

国产算力接棒推进,供给体系趋于多元稳健。据South China Morning Post于2025年10月信息,黄仁勋指出受美国出口限制影响,NVIDIA不被允许向中国大陆公司出售先进产品,其在中国先进芯片市场份额由95%降至0。叠加国内互联网厂商采购国产化趋势增强,外采第三方与自研并行,有助缩短迭代、优化成本并强化自主可控,带动本土生态协同升级。我们认为,并行策略将提升国产芯片规模化落地效率与韧性。

2)存储

AI存储需兼顾容量、吞吐与可靠性。训练侧重稳定写入与快速恢复检查点,推理侧重高效查询与即时响应,对系统扩展性与可用性提出更高门槛。硬盘用于保留模型产出、检查点与查询数据;SSD与内存承担高并发低时延通路。随模型参数与能力扩张,训练对数据规模、丰富度与标注质量要求提升,多模态样本需持续汇聚与留存,催生原始与清洗多副本管理与分层留存。我们认为,大容量HDD与高性能SSD协同、以容量扩充与分层优化为主,将与算力投入并行成为中长期建设重点。

视频多模态推理驱动容量与带宽上行。多模态成熟后,线上推理对素材、缓存与生成成品留存扩大,并发访问与调用频率提升。据希捷科技数据:单图约1MB、音频约5MB、视频按分钟计约50MB;随生成视频分辨率与时长上行,单体内容容量继续抬升。Sora App等应用病毒式传播提升创作者渗透率与产量,视频生成分发依托边缘低时延内存与SSD快速检索与回源,推动本地缓存与中心存储协同调度与分层管理细化。我们认为,推理端需前瞻规划容量与带宽冗余,边缘存储与SSD加速将获增量。

3)电力

电力约束抬升算力门槛,能源成为AI时代稀缺要素。AI训练与推理持续推高用电负荷,据彭博新能源财经(BNEF)预测,至2035年美国数据中心电力需求将由2024年的近35吉瓦增至78吉瓦,平均每小时用电由16吉瓦时升至49吉瓦时。AI与能源已“合二为一”,有效算力的度量正转向以吉瓦为单位的供电能力。我们认为,能获得稳定低价电力者,将在算力竞争中占据结构性优势。

核能被视为稳定低碳的中长期解法,海外头部云厂商等已签订多个电力购买协议(PPA)。美国电网当前面临需求激增与多年投资滞后叠加,SMR(小型模块化反应堆)有望成为新增负荷的重要抓手。海外头部厂商,包括微软、Gogole、亚马逊、Meta均与SMR厂商签订了相关协议或PPA。

4)应用

AI应用是后续AI商业化落地的核心战场与抓手。在OpenAI加速扩展数据中心的同时,2025年9月OpenAI与Stripe合作推出ACP支付协议,打通ChatGPT内的即时支付功能,形成商业化变现闭环。首批接入ChatGPT应用生态的厂商包括Etsy、Shopify两家电商,以及Figma、Zillow、Expedia、Instacart、Salesforce、Spotify、Duolingo等各垂类应用。

国内入口卡位稀缺、覆盖较多2B/2C客户的标的更易受益于AI应用商业化浪潮。面向国内AI应用标的,我们延续“生态优先”的判断框架:以平台级入口为抓手、具备服务企业(2B)或消费者(2C)的用户结构,并能与模型、支付与分发渠道形成闭环者,更有望在应用商业化范式变化中率先兑现。此类公司通常兼具稳定的终端触达与企业服务能力,能通过API、插件或原生场景快速嵌入,放大用户黏性与付费转化。我们认为,入口卡位、用户结构齐备与生态协同将构成筛选受益标的的关键标准。

中美两国持续引领大模型迭代

全球主流大模型集中于中美,两国头部厂商或长期占据主导优势。基于Artificial Analysis的数据与模型智能指标观察,当前头部模型整体由美国阵营领跑,海外最具代表性者为OpenAI、xAI、Anthropic与Google;曾在开源方向表现突出的Meta,受Llama 4系列推进不顺等因素影响,模型性能阶段性落后。国内方面,从模型性能维度评估,DeepSeek、Qwen(阿里系)、智谱模型位居前列,Kimi与MiniMax等亦处于国内较为领先的行列。腾讯、百度的模型没有被纳入排行榜单,但其模型依然各有特色。我们认为,上述格局反映了中美在基础模型与工程化推进上的综合优势。

客观看待大模型幻觉与排行榜结果。OpenAI论文《Why Language Models Hallucinate》指出,模型幻觉源于训练与评估目标错位,反映当前“刷分”现象背后的机制。论文显示,现有训练体系往往奖励模型在不确定时仍作出回答,而非承认“不知道”,导致模型更倾向“猜测”而非求真。幻觉因此并非偶发性错误,而是统计学习以语言分布为目标的自然产物,与事实正确性并不等价。要减少幻觉,需要在评估机制上转向激励模型表达不确定性、惩罚误导性回答,而非单纯追求更高得分率。我们认为,这一机制偏差解释了部分模型评测得分高但实际体验不佳的原因,反映了模型能力与真实可用性间的结构性落差。不过,当前阶段,大模型排行榜依然是直观对比不同模型性能的较好选择。

Google当前拥有较为全面的全栈模型软硬件能力,其他玩家强化补短。据Artificial Analysis数据,以四维能力矩阵系统评估全球大模型主要竞争者的能力与定位现状,框架涵盖最底层的硬件支撑、其上的云服务能力、进一步的技术模型能力以及面向终端的顶层应用四个维度。从现阶段表现看,Google在上述各维度的能力布局相对均衡且覆盖面广,体现为底层自研硬件(TPU系列)到应用的端到端一体化优势。相对而言,其他玩家也在逐步补齐短板,如OpenAI在底层定制化硬件方面暂处于落后位置,但是据路透社信息,OpenAI已宣布与博通合作开发新一代ASIC芯片,以期强化算力与成本控制的基础能力;国内DeepSeek V3.1及之后系列、智谱GLM 4.6在Day0即适配了国产芯片。我们认为,当前大模型玩家格局呈现“Google更全面、其他厂商强化补短”的阶段性特征。

Google在多模态模型领域的综合实力突出,技术积累构筑长期竞争壁垒,实现多点开花。对比海外主要厂商,OpenAI以文本生成和图片生成为核心,并拓展至实时语音及视频生成(Sora系列),但产品迭代节奏相对分散,如Sora于24年2月发布,直到12月才上线,25年10月更新Sora 2;Anthropic聚焦纯文本及部分视觉理解,多模态生成能力有限;xAI同样以文本生成为主,尚未正式发布视频生成模型。相比之下,Google依托多模态融合及跨领域研究的深厚储备,具备系统化的模型开发与算力调度能力,图像(Gemini Image系列)、视频(Veo系列)、机器人(PaLM-E、Gemini Robotics系列)多点开花。我们认为,Google的多模态布局覆盖面广,技术底座稳健,为后续模型代际跃迁奠定基础。

Gemini 3作为Google多代技术积累的集中释放,验证预训练与后训练仍具显著提升空间。回顾迭代节奏,Gemini 1以原生多模态与长上下文能力扩大模型可处理的信息类型与规模;Gemini 2进一步奠定面向复杂任务的Agent能力框架,带来更高质量的推理与任务分解。在此前提下,Gemini 3实现多模态理解、Agent能力与Coding能力的全面释放,构成更成熟的能力体系。据Google官网信息,Gemini团队在预训练阶段取得阶段性跃升,未呈现外界担忧的规模化受限迹象。与此同时,包括强化学习在内的后训练仍具进步和改进空间。两条路径共同塑造了Gemini 3的综合性能进展。Gemini 3 Pro在多模态理解和生产力应用场景表现突出,其中Vending-Bench 2基准显示,其在长时序运营模拟中能够保持稳定的工具调用与决策节奏,实现更高回报且未偏离任务目标。

Google前期在模型发布节奏上较慢,主要源于大型企业内部的结构特征,目前阵痛期已过。过去两年,Google模型迭代速度不及OpenAI(2024年9月员工3000人以上)/Anthropic(2025年5月员工1300人左右)等初创公司,原因在于其公司人员规模大(截至25Q3共有190,167名员工)、内部多条业务线并行、决策链条较长,导致产品落地周期相对延后。然而,这种节奏背后体现出研发体系的系统化与安全审慎。一旦内部多项目成果集中兑现,往往能形成“多点开花”的局面,带来技术与产品层面的显著突破。我们认为,Google在大模型迭代上的滞后并非能力不足,而是战略稳健与组织复杂性使然,后续一旦节奏提速,其潜在创新爆发力值得关注。

Transformer架构依然主流,Diffusion值得关注

当前全球大模型仍以Transformerdecoder-only架构为核心主流。尽管近年来陆续出现如Mamba、KAN等新型网络结构,但尚未在工程实践中形成主导地位,Transformer体系依旧占据核心位置。我们认为,在可预见阶段内,Transformer仍将是大模型研发与优化的基础框架,其生态与工具链优势将继续巩固主导地位。

我们认为,未来仍可能出现替代Transformer的新型架构。尽管Transformer自2017年提出以来已成为主导范式,但其真正获得全球关注与验证是在2023年底ChatGPT问世之后。回顾这一历程可以发现,技术范式的更替往往具有滞后性,新的架构或已在研究阶段出现,只是尚未进入广泛应用周期。我们认为,随着模型规模、算力利用和推理方式的进一步演进,未来在特定时间点上,或将出现性能与效率兼备、并能超越Transformer的新一代主流架构。

Diffusion架构正被重新审视,其在生成领域的应用边界正逐步扩展到文本领域。Diffusion架构本身并非全新技术,主要用于图像与视频生成。2024年初Sora的发布,展现了Diffusion与Transformer结合的潜力,显著提升了视频生成的一致性、分辨率及时长表现。25年5月,Google首次尝试将Diffusion算法用于文本生成,发布Gemini Diffusion预览版,字节随后也推出Seed Diffusion以跟进相关方向。Diffusion的优势在于Token生成速度快(字节Seed Diffusion专门用于代码生成,其推理速度达到2,146 token/s,比同等规模的自回归模型快5.4倍),且生成后可进行精细化修改,而Transformer基于Next Token Prediction的生成方式则缺乏这种可回溯调整能力。我们认为,尽管Diffusion能否取代Transformer成为主流尚待验证,但其在头部厂商中的探索已具前瞻意义,值得持续关注。

Scaling Law 2.0下,中美模型迭代的差异化路径

Scaling Law 2.0含义更加丰富,数据、算力持续攀升

Scaling Law”作为Transformer体系的核心逻辑,正从单一阶段演进至多阶段范式。早期的Scaling Law主要聚焦于预训练阶段,通过扩大模型参数、数据规模、算力规模实现性能提升,可称为1.0阶段;而自2024年9月OpenAI发布o系列模型以来,强化学习被系统性引入后训练流程,标志着Scaling Law进入2.0阶段,即在后训练环节继续扩大算力与数据投入,使模型在强化学习中形成可扩展的能力增益。进一步地,在推理阶段,模型通过思维链(Chain of Thought)方式开展推理,用户可在实际使用中使用更多算力以延长思考时间、生成更多token,在推理中充分释放已习得的强化学习能力。我们认为,这种从预训练到后训练再到推理端的全链路扩展逻辑,构成了当前大模型性能演进的主线框架,也是2025年黄仁勋在GTC大会上所强调的关键趋势。

MoE之后,推理模型成为主流选择

头部大模型整体呈现推理强化与MoE并行的双特征趋势。具体看,在混合专家(MoE)架构,便于沿参数规模规律扩展(Scaling Law)潜力,同时推理时按路由仅激活部分专家,降低单位开销,兼顾效率与性价比,由此成为头部模型实践的优先选项。2024年下半年,随着OpenAI的o系列“推理模型”在预训练后引入强化学习等后训练以纠偏优化,推理阶段进一步给予更高算力与更长思考时间,以换取复杂任务上的性能改进。我们认为,推理阶段的资源调度与MoE的扩展效率将继续支撑性能提升。

大模型训练数据量持续提升

训练数据Token规模持续走高。据Artificial Analysis统计,典型开源模型的训练数据常见在10-15万亿tokens,被视为可免费获取并高质量清洗后的网络数据量级。头部厂商通过新增标注与合成数据等方法持续扩容训练数据tokens,新近模型的训练tokens继续上行:例如阿里Qwen系列由18万亿(24年9月Qwen 2.5)提升至36万亿(25年4月Qwen 3),Meta在训练Llama 4 Scout时引入部分社交数据,使总体训练数据约达40万亿。我们认为,随“垂类”数据与新标注数据的不断累积,训练tokens仍将增加,且从模型泛化性和性能表现来看,OpenAI、Google等头部模型的训练规模或高于公开口径。

训练算力与训练成本保持快速增长

从全球前沿模型的训练趋势来看,算力投入的增长仍是推动大模型性能演进的核心动力。根据Epoch AI在《Training Compute of Frontier AI Models Grows by 4-5x per Year》中的测算,2010年至2024年间,具代表性的前沿模型训练所需算力的年均增长倍数约为4-5倍。这一趋势在主要科技企业的旗舰模型中表现一致,显示出业界对算力扩展的持续依赖。值得注意的是,最头部的语言模型的增长趋势更快,在2017年6月至2024年5月期间,其增长速度高达每年9倍。从2025年发布的新前沿模型来看,仍然没有放缓。总体判断,在当前阶段,算力仍是大模型能力演进的底层约束与增长引擎,其年均4-5倍的扩张速度构成了行业发展的核心节奏。

从训练成本趋势来看,前沿模型的资金投入正快速攀升。根据Epoch AI的研究《How Much Does It Cost to Train Frontier AI Models》,2016-2024年中具有代表性的前沿模型训练成本年均增长约2.4倍(区间为2.0-3.1倍),若按云端算力租用价格计算,增速约为2.6倍。当前训练成本结构中,AI加速器硬件与研发人力支出占比最高,分别约为47-67%与29-49%。若这一增长趋势延续,预计至2027年前沿模型的单次完整训练成本或将达到十亿美元量级。我们认为,训练成本的持续攀升将进一步抬高进入壁垒,强化头部厂商的领先优势,同时促使行业在硬件能效、算法效率及架构创新方向加速突破,以在性能与成本间寻求平衡。

模型性价比提升的趋势不变

大模型API价格延续下降,但未发生“智能性-价格”倒挂现象。当前看,各家在新模型发布后通常同步下调API费用,整体价格呈持续下行态势;从“智能性-价格”关系看,智能性更强的模型定价仍更高,尚未出现高智能却更低价的倒挂情形。我们认为,随着模型效率迭代与供给增加,价格下行趋势仍将持续。

Scaling Law 2.0下,中美模型迭代的差异化路径

海外:xAI持续践行“大力出奇迹”,紧抓后训练和强化学习

Scaling Law 2.0以“后训练+强化学习”为核心路径,Grok迭代验证该方向。围绕xAI的发布节奏可见Scaling Law侧重的迁移:Scaling Law 1.0阶段,对应xAI自Grok 2到Grok 3的迭代,主要通过将预训练算力扩大约10倍带来性能跃升;Grok 3的推理模型标志着Grok模型进入后训练阶段;至Grok4发布,其后训练(Reasoning)相较Grok3再度将算力放大约10倍,使得后训练算力需求接近预训练。从目前头部模型迭代进度看,后训练的算力需求还有可能继续增加。据xAI官网,Grok 4依托20万卡级别的Colossus大规模集群进行训练,因此,持续扩大后训练的模式与海外更高密度算力核集群禀赋相匹配。我们认为,Scaling Law 2.0体现出算力重心由预训练向后训练与推理环节迁移,并对高密度集群供给提出更高要求。

Grok 4.1在强化学习奖励范式上引入Agent模型奖励,并继续在后训练算力上有数量级提升。Grok 4.1延续“预训练+强化学习”的总体路径,但在后训练环节进行了关键范式调整。据xAI官网信息,本次迭代沿用了Grok4的大规模强化学习基础设施,并针对强化学习中不可直接验证的奖励信号进行了优化,采用具备Agent推理能力的模型作为奖励模型,使系统能够实现自动化评估与响应迭代。Grok4.1在偏好度测试中达到64.78%,呈现出更符合用户交互偏好的输出特征。xAI训练团队在X平台亦指出,其后训练强化学习规模相较Grok4扩大了一个数量级,结合更强推理能力的奖励模型,使模型在真实对话偏好学习、自主评分与反馈循环中持续改进。

OpenAI在后训练Scaling领域或也进入重投入阶段。尽管OpenAI未公开其在后训练阶段的具体Scaling进展,但从“Stargate(星际之门)”项目的规划细节与算力布局来看,其在后训练方向的资源投入已具备显著规模。Stargate项目的算力规划高度完善,体现出OpenAI对后训练阶段的重视程度,以及为实现Scaling Law 2.0提出的“后训练-强化学习”体系所需的基础设施支撑。我们认为,作为后训练Scaling Law 2.0理念的提出者,OpenAI当前的研发重点同样正在从模型规模扩展转向后训练与推理环节的算力优化与结构化部署,进入了重投入阶段。

国内:阿里、DeepSeek创新性架构优化,抓住Attention本质

国内算力受限背景下,模型迭代更依赖架构层创新。相较于海外依托NVIDIA最新GPU构建10万至20万卡级超大集群的条件,国内在算力基础设施上仍存在差距。在此约束下,基础模型的发展更需通过架构优化提升效率。从当前技术演进看,Transformer架构在中短期内仍将是主流,其核心算法Attention机制(通过计算Tokens间相关性以预测最优输出),构成了模型性能的关键环节。因此,国内头部厂商普遍聚焦于Attention层面的优化与创新,其中以阿里的Qwen系列与DeepSeek的模型为典型代表。我们认为,在算力约束难以短期突破的情况下,架构创新与算法精炼将成为国内基础模型竞争的主要方向。

Qwen3-Next延续Scaling大方向,通过Attention优化提升长文本与大参数效率。阿里为进一步增强模型在长上下文与大规模参数条件下的训练及推理效率,其Qwen3-Next在保持Transformer与MoE总体框架不变的前提下,主要改进了:1)引入“75%线性注意力+25%传统注意力”的混合机制,在兼顾长文本效率与记忆精度间取得平衡;2)显著提升稀疏化程度,80B总参数仅激活约3B,激活率约3.7%,推理效率明显改善;3)扩大MoE专家数量至512个,为前代的两倍;4)采用多Token预测机制,提高训练与推理并行度。我们认为,Qwen3-Next的创新体现出在Scaling框架下通过细粒度结构优化实现性能与成本的再平衡,这类“细节创新”或将成为后续国内大模型迭代的主要演进路径。

DeepSeek V3.2引入Dynamic Sparse Attention,训推效率再次有了大幅提升。DeepSeek V3.2-Exp在性能上与上一版V3.1-Terminus差距不大,并将V3.2定位为“迈向新一代架构”的中间步骤。V3.2最大的进步体现在DSA(Dynamic Sparse Attention)的引入,模型训练与推理效率显著提升,相比上一代模型API输入与输出成本分别下降约50%与75%以上(推理成本)。DSA的核心优化集中在Attention机制层,通过算子级与内核级的工程化重构,在长上下文任务中显著压缩训练与推理开销,同时尽量保持模型性能稳定,延续了以架构精修换取综合效率提升的技术路线。我们认为,该版本体现出在算力约束下的务实取舍,既为后续架构演进奠定技术基础,也展示出国产模型在底层优化方面的持续积累。

DSA实现长上下文推理的高效稀疏化。V3.2-Exp在原V3.1架构基础上新增的结构改动为DSA,旨在显著提升长上下文的训练与推理效率。其基本思路是采用“先粗筛、后精算”的双阶段注意力机制:通过一个轻量索引器(Indexer)先对历史tokens进行快速筛选,选出最可能相关的Top-k候选,再由主注意力模块进行精细计算,从而将复杂度由O(L²)降至O(Lk)(k≪L),文本越长节省越显著。索引器虽维持O(L²)复杂度,但因采用更少注意力头、轻量化FP8计算及优化实现,使端到端推理显著加速。我们认为,DSA标志着国内Attention机制从全密集计算向动态稀疏推理的转折,是长上下文方向的重要突破。

Kimi K2模型在整体架构上延续DeepSeek V3框架,并引入了针对性架构优化。K2主要改进包括:1)验证在激活参数不变的条件下,单纯提升MoE总参数量依然符合Scaling规律,训练与验证loss持续下降且无过拟合迹象;2)适度减少Attention head数量,在保持性能稳定的同时显著降低算力开销;3)仅保留首层dense层,其余全部采用MoE结构,以改善首层router负载不均并提升专家利用效率;4)引入无分组的简化router,优化计算路径与参数调度;5)将模型参数从V3的671B提升到1T;6)引入MuonClip优化器,显著提升训练稳定性与收敛一致性。得益于上述改进,K2在维持与DeepSeek v3相当的训练与推理成本下,实现了更低loss与更高参数效率。我们认为,K2的路径体现了国内团队在算力约束下通过结构精修延展Scaling规律、提升模型性价比的工程化思路。

推理/非推理模型统一后,模型应用转折点或将到来

GPT-5确立了行业内模型“统一系统”的方向

GPT-5以统一架构实现快思与深思的自适应协同,并以路由器按任务动态分配资源。具体而言,体系由基础模型(Main model)承担多数日常问答,深度推理模型(GPT-5 Thinking)处理复杂任务中的长期思考,实时路由器(Real-time Router)依据对话类型、问题复杂度、工具调用与用户意图(如“认真思考”提示)在两类模型间动态选择与切换。路由器持续学习用户信号(如模型切换行为、回答偏好、正确率等)以优化决策,并规划在后续将三者进一步融合为单一模型,以在优化速度的同时提升思考深度与一致性。我们认为,该架构有利于在不同使用场景下兼顾响应效率与推理质量。

GPT-5.1以自适应推理与细化模型分工提升智能表现与交互体验。GPT-5.1在延续GPT-5统一架构的基础上强化产品化能力,通过Instant与Thinking双模型分工使日常交互与复杂推理各得其所。Instant聚焦指令遵循与语境贴合,提升对话自然度;Thinking通过动态调整思考时间,在深度推理与响应速度间取得更稳妥平衡。据OpenAI官网,模型在AIME2025、Codeforces等数学与编程类任务中表现更强,逻辑严谨度提升明显。自适应思考机制使模型可自主判断是否深入推理,使速度与质量兼顾。语言表达趋向简洁清晰,减少技术术语堆叠。个性化调节亦得到增强,新引入Professional、Candid、Quirky等语气,并支持对简洁度与情感温度的细粒度控制。生态上,GPT-5.1将逐步替代GPT-5,旧版本保留三个月以便用户平滑迁移,API同步更新至gpt-5.1-chat-latest与gpt-5.1。

GPT-5提出统一模型架构后,行业迅速跟进,并正成为新一代大模型演进的重要方向。其核心在于将推理模型与非推理模型整合到单一系统中,通过动态调度实现“快思-深思”的连续切换,从而在响应速度与推理深度间取得较优平衡。我们认为,这种统一思路正在改变模型设计逻辑,使“思考层级”成为可调系统参数,而非外部模式选择,并且更加节省模型输出的token数。此外,统一模型的一个重要优势在于部署与运维效率显著提升。过去需要分别部署推理模型和非推理模型,而现在只需部署一个统一模型即可覆盖不同任务场景,不仅降低系统复杂度和算力成本,也提升推理过程的连续性与资源利用率。

DeepSeek V3.1以混合推理架构落地统一模型,实现单体兼容快思与深思。V3.1版本在一个模型内同时支持思考模式与非思考模式,使“是否推理、推理到何种程度”由系统自动判定;在思维链压缩训练的配合下,V3.1-Think能以更少的输出Token在更短时间内完成复杂任务,同时保持与既有基线相近的性能表现。我们认为,该架构通过内部机制而非多模型切换,在性能与能效间取得更稳定的折中。

Grok 4 Fast同样以统一模型架构为核心,将推理与非推理模式融合于同一体系内。Grok 4 Fast依据任务复杂度自动调节思考深度与计算资源,实现响应速度与推理能力的动态平衡,通过强化学习优化智能密度(intelligence density),在保持Grok 4同等性能的同时平均减少40%推理Token消耗(图表24)。统一体系下模型可在实时搜索、代码执行、复杂推理与普通对话间自适应切换,使“快思-深思”形成连续可调的谱系结构。

头部厂商重心开始向应用和商业化生态转移

统一模型属于系统层面的重要创新,但并未改变大模型的底层理论架构。其核心价值更多体现在工程与产品层面,通过体系整合提升推理效率与部署便捷性。我们观察到,在统一系统落地之后,头部大模型厂商的研发重心正逐步由底层模型优化转向上层应用与商业化探索,技术竞争正从模型理论创新转向产品体验与生态建设。

OpenAI的Pulse和购物功能是典型的应用和商业化生态新模式探索,也是OpenAI利用其日益增长的周活用户”变现的“第一步”。

Pulse解决了“模型如何主动地行动”的问题,属于计算密集型服务(compute-intensive service)。Pulse让大模型从被动响应的工具,演化为能主动理解与推理的智能体(Agent),真正迈向“自驱动”的应用形态。传统ChatGPT依赖用户输入触发推理,而Pulse引入异步推理机制,能在用户离线时自动执行分析、生成更新与个性化内容。这意味着算力需求不再由“交互次数”驱动,而转向“持续在线的智能体数量”驱动,推理任务的触发频率与时间跨度均被极大延展。结合此前Deep Research的经验,这类Agent的Token消耗较传统模型高出15-50倍(参见报告《科技/计算机: Token推动计算Compute需求:非线形增长》,2025年7月17日),而Pulse的主动推理模式将进一步放大这种差距。

从应用与商业逻辑上看,Pulse的推出意味着OpenAI的重心正在由底层架构转向上层生态与商业化探索。一方面,Pulse通过长期积累的用户上下文,具备构建个性化推荐与广告体系的潜力,使大模型商业化路径从“卖API”扩展至“用户数据驱动的服务经济”;另一方面,端侧硬件的引入让模型能更深入地嵌入用户日常生活场景,形成“端侧收集+云端推理”的双层闭环,从而进一步扩大算力需求与数据边界。

我们认为,统一模型奠定了底层能力的集约化基础,而Pulse则代表了从统一模型走向统一智能体生态的关键一步。它使算力的消耗从“响应一次对话”变为“持续感知与主动决策”,为AI在个性化推荐、数字助理及端云协同场景中的商业化落地打开了新的空间。

OpenAI首推“对话内购买”,以协议驱动交易闭环。OpenAI在统一模型与Pulse之后,又推出了Agentic Commerce Protocol(代理商务协议,ACP),标志其正式将智能体(Agent)能力延伸至商业交易场景。该协议由OpenAI与Stripe联合开发,旨在让AI Agent具备直接执行购买行为的能力,实现从“推荐商品”到“完成交易”的全流程自动化。第一批电商合作伙伴主要为Shopify(SHOP US)和Etsy(ETSY US)。

OpenAI对商户收取少量服务费,但对用户完全免费,且不影响商品价格或搜索结果排序。“对话内购买”使ChatGPT从信息服务工具进一步演化为具备交易执行能力的主动型Agent平台。用户可在对话中完成即时结账(instant checkout),无需跳转页面或输入额外信息;而商家则可通过接入该协议直接触达ChatGPT的数亿级用户群,在保持自身支付体系与客户关系的前提下参与交易。

从系统演进的角度看,Agentic Commerce Protocol是继统一模型→Pulse(主动推理)→Agentic生态之后的又一次关键商业化延伸。统一模型提供了智能体的计算基础,Pulse让智能体具备主动性,而该协议则赋予智能体实际执行力,使AI从“会思考”迈向“能行动”。我们认为,这一进展代表OpenAI正在把智能体从生产力工具推进为商业行为主体,AI产业的价值链由算力与模型竞争,进一步拓展至支付、交易与用户生态层面。

OpenAI开发者大会再次强调以ACP对话内即时结账为核心,贯通需求发现到用户支付的商业闭环生态。10月6日2025年OpenAI开发者大会上,OpenAI再次明确在支付侧引入Agentic Commerce Protocol的“对话内即时结账”,并强调不止电商,后续各类接入ChatGPT的App均可能通过ACP实现变现。对话即入口、结账不外跳,已订阅用户可在对话直接登录,未来支持多种变现,使交易链路由“触达-体验-转化”在同一会话内闭合,显著降低流失点并便于归因与运营。我们认为,ACP将会话从信息交互延伸为交易承载,提升单位会话的转化效率与可运营性,成为商业化的关键抓手。

Apps SDKMCP提供商业化所需的接入、控制与富交互能力。Apps SDK(预览)基于MCP,前后端完全可控,支持数据接入、动作触发与富UI(内联/画中画/全屏/Widget);“Talking to Apps”使应用可反向暴露交互上下文给模型,强化对话-UI-动作闭环。据发布会信息,年内将开放提交审核与目录,开发者指南草案已发,达标上架、优秀者可获更多推荐位。我们认为,标准化接入与目录化分发共同构成商业化基础设施,帮助开发者更好的接入到ACP环境中。

开发者大会之后,OpenAI显著加速软件生态的构建步伐。除了在10月6日开发者大会上宣布的Coursera、Zillow、Figma、Spotify等一系列软件合作伙伴外,OpenAI加紧与其他软件应用厂商的合作,10月14日,宣布与Salesforce合作,实现在ChatGPT里使用Salesforce产品,并能够使用ACP支付协议完成支付;同日宣布与Walmart达成合作,共同打造新型购物体验,通过Chatgpt实现购物并即时结账。OpenAI的战略中心已经逐步向应用和生态转移,后续或会有更多的软件应用厂商加入。

OpenAI收入预期显著上修,驱动来自ChatGPTAPIAgent与新产品,Pusle/ACP是重要一环。据The Information数据,25Q3 OpenAI将2030年营收由年初预测的约1,740亿美元上调至约2,000亿美元,2029年由约1,250亿提升至约1,450亿;2025 年仍以约130亿为基准。结构上,收入来源由ChatGPT订阅与API扩展至Agent与“新产品(含免费用户变现)”。结合ACP(Agentic Commerce Protocol),平台可在对话内直连交易与支付,形成“推荐-下单-履约”的闭环,一方面OpenAI能够有一定take rate,另一方面有望提升免费用户变现与商户转化。此外,配合通用代理能力、企业级集成与潜在硬件终端等产品形态,OpenAI收入曲线呈现由单点订阅向多元生态的过渡。Pulse/ACP或将成为Agent化商业闭环的重要抓手,与企业付费、API用量增长及硬件载体共同构成中期营收弹性的关键来源(参见图表34)。

阿里的Qwen模型或是国内大模型中全领域布局最为齐全的。Qwen系列旗舰模型Qwen3-Max在综合性能上超越GPT-5、Claude Opus-4,Coding与Agent两项关键指标进入全球第一梯队;Qwen形成大规模衍生家族,Qwen3-VL、Qwen3-Omni与通义万相2.5覆盖视觉、音视频与内容生成,百聆语音面向客服、电商等刚需付费场景;与Nvidia在Physical AI的合作或拓展至机器人模型。

国内C端商业化稍慢于海外,阿里通过模型布局推动2B token上量和商业化加速。在研报《科技/计算机: 多模态大模型和应用奇点将至》中,我们得出了国内2C商业化(尤其是AI原生应用)稍慢于海外的结论。因此,国内商业化方面,2B是大厂的主要选择。据云栖大会2025主题演讲,近2-3个月需求端Token消耗实现倍增,伴随模型能力提升与Agent类应用出现,阿里云百炼平台过去一年模型日均调用量增长约15倍,反映开发者与企业侧的活跃度提升。从阿里云业务来看,自2024年底以来,一直呈现较快的收入增速,最新的FY26Q1云业务收入增速达到了25.8%。后续随着Qwen多模态模型持续扩展,阿里token调用量有望持续增长,最终有望带来商业化加速。

千问APPAll-in-One形态强化阿里进军CAI入口的战略定位。25年11月,千问APP正式公测上线,依托Qwen3模型作为能力底座,为用户提供集聊天、任务处理与多场景服务于一体的AI助手,并开放免费体验入口。产品形态上,千问APP旨在成为统一的AI交互枢纽,未来将持续覆盖办公、地图、健康、购物等日常场景,使模型能力在更广泛的生活链路中可直接调用。过去三年阿里团队持续打磨Qwen模型能力,本次应用落地意味着模型能力向C端进一步靠近,并通过移动端入口提升触达效率。

模型Agent能力:海外注重基模,国内偏向应用

海外:旗舰模型执行复杂任务的时长持续Scaling

海外旗舰模型能执行复杂任务的时长不断提高。METR提出了“50%任务完成时长阈值”概念,指模型在某任务族上以50%成功率可独立完成的任务,其对应的人类完成用时。研究以RE-Bench、HCAST与66个新增任务为样本,先计时具备相关经验的人类用时,再将模型在不同时长下的成功率拟合为曲线,取成功率50%点作为指标。据METR数据,模型在数分钟内可完结的短任务上成功率接近满分,但当任务持续跨越数小时,成功率显著下降,限制因素主要在长链路执行与错误恢复能力。前沿模型对应阈值约在50分钟量级,且过去六年呈指数提升,翻倍周期约7个月。其中OpenAI GPT-5、Anthropic Claude Sonnet 4.5、xAI Grok-4时长能达到1-2小时。

主流agent产品倾向选用海外旗舰模型。市场上面向复杂业务流程的agent系统,多采用海外基础模型作为核心底座,偏好具备长时执行与稳定规划能力的版本;这一取向与图表35中对METR“长执行时间能力”的强调相互呼应,反映出在长链路、强工具调用与跨代理协同的场景中,工程团队更关注稳健性与一致性,而非单点指标的提升。

GensparkClaude为新架构底座以适配多智能体。据Genspark官方,团队在测试多种模型选项后,明确选择Claude作为新一代系统基础,主要看重其在任务规划与链式推理上的稳定表现,契合“混合多智能体”的编排需求;同时,Genspark并未排他,复杂任务处理亦合作接入OpenAI的旗舰模型,以覆盖更广的指令理解与工具使用场景。

Manus采取多供应商并行并接入OpenAI旗舰。据Manus帮助中心与产品说明,其支持Anthropic、Google、OpenAI等多家模型提供商,结合路由与成本/质量权衡以适配不同任务强度;在复杂、长链任务中,Manus可同时利用Claude与OpenAI旗舰模型,以提升跨步骤协同与结果一致性。

“长执行时间能力”与产品选型形成双向印证。结合前文METR数据,能维持更长执行与控制的模型在代理任务完成率、规划一致性与容错上的表现更具应用价值;与之对应,主流agent产品实际选型更易倾向此类海外旗舰模型,并在多智能体、工具调用与监控校验上形成工程闭环。我们认为,这一趋势将延续,并促使厂商围绕长时控制、可观测与安全约束持续迭代。

国内:智谱AutoGLM应用开始占领用户心智

智谱AutoGLM较早占据Agent应用生态位,占领用户心智。AutoGLM在Agent应用路径上实现从“会用手机→跨端无人驾驶→沉思推理闭环→云端常驻执行”的递进,兼顾方法论(WebRL、沉思强化学习、端到端异步RL)、评测证明(Phone/Web/GUI SOTA)与产品可达性(插件、内测/公测到API与生态),在设备操控智能体与“边想边干”能力上展现全球级领先特征,率先占领用户心智。

第一阶段:AutoGLM奠定“能用手”的范式。AutoGLM以“基础智能体解耦中间界面+自进化在线课程强化学习框架”为底座,核心技术WebRL缓解任务规划与动作执行拮抗、训练任务与数据稀缺、反馈稀少与策略漂移等问题,并以自适应策略实现稳定迭代。据AndroidLab与WebArena-Lite评测,AutoGLM在Phone Use与Browser Use上相对GPT-4o、Claude-3.5-Sonnet取得优势;Web端经“智谱清言”插件对外发布,手机端开启安卓内测,定位于L3工具能力,服务GLM-OS通用计算方向。

第二阶段:跨端执行与无人驾驶上网产品化。升级后的AutoGLM可自主执行50步以上长链路,支持跨App任务、短口令与“随便模式”,并在现场以语音指令完成群发红包与手机远程指挥电脑演示;Web端“全自动”上网覆盖搜索、微博、知乎、GitHub等数十站点,面向C端启动百万内测与“亿级APP免费Auto升级”,开放标准化API试用;同步推出PC侧GLM-PC,围绕会议替身、文档处理、指定平台检索总结、远程与定时操作、隐形屏幕等能力展开,但当前仍需较精准指令。

第三阶段:沉思能力让“边想边干”成为闭环。智谱发布AutoGLM沉思,技术路径为GLM-4→GLM-Z1→GLM-Z1-Rumination→AutoGLM,强化学习推动模型形成自我批评、反思与长程推理,并与环境感知与工具使用耦合。沉思功能已在智谱清言网页端、PC端与App免费开放(preview聚焦research场景),推出“虚拟机”形态;部分核心链路与模型于4月14日开源。

第四阶段:评测领先巩固手机/网页/GUI能力。据AgentBench等基准,AutoGLM系列在5个测试环境获得SOTA;在Phone Use(AndroidLab与AndroidWorld)中,AutoGLM-Phone任务成功率较此前方法提升逾20%;在Browser Use中,AutoGLM-Web相对GPT-4o与Claude-3.5-Sonnet表现更优;在GUI智能体方向,自研GLM-PC(CogAgent)以9B参数在多榜单达到SOTA,超越GPT-4o+UGround、Claude Computer Use等更大规模方案。上述模型计划开源并陆续上线MaaS平台。

第五阶段:AutoGLM 2.0成为云端Agent执行助手。AutoGLM 2.0采用“Agent+云手机/云电脑”范式,不占用本地设备与屏幕,突破硬件限制(安卓/iOS均可用)并支持“定时任务”等常驻执行;以GLM-4.5/GLM-4.5V驱动,覆盖推理、代码与多模态。在生活侧可一句话操作美团、京东、小红书、抖音等高频应用(点外卖、订机票、查房源);在办公侧可跨站完成检索、撰写、视频/PPT/播客生成与内容发布;执行能力封装为API,延展至眼镜、家电等硬件。据Device Use基准,AutoGLM优于ChatGPT Agent、UI-TARS-1.5与Claude Sonnet 4,并在ComputerRL、MobileRL、AgentRL中引入多项训练改进以提升稳定性与收敛效率。

多模态领域国内领先,Sora 2有望再次引发热潮

国内模型厂商在多模态生成领域全球领先

国内在多模态生成领域整体保持领先地位,腾讯在图像、3D领域领先。当前在多模态生成的主要方向中,国内模型在图像、视频及语音生成等多个赛道均位居全球前列。据 Artificial Analysis 排行榜显示,字节跳动的Seedream4.0在“文生图像”领域表现突出,居于领先位置;而根据LMArena 最新榜单,腾讯9月底开源的混元图像3.0模型(原生多模态生图模型,官方表示是首个开源工业级原生多模态生图模型。具备常识并能够利用知识进行推理;同时语义理解准确度高,并具备极致美学质感,能生成真实的高质感图片;支持中英文文字生成,长文本文字渲染),已超越Google Gemini 2.5 Flash Image,位列榜首。此外,腾讯在3D模型上同样颇有建树,25年9月发布混元3D-Omni、混元3D-Part,使得AI 3D建模更具实用性,加速了3D生成模型在游戏、打印和AR/VR等实际生产流程中的落地应用。

快手、字节、MiniMax在视频生成领域取得了不错的突破。在视频生成方向,包括“文生视频”和“图生视频”两类任务中,快手、MiniMax、字节跳动以及国内初创企业生数科技、Pixverse(爱诗科技)等均展现出较强竞争力。其中,快手推出的Kling 2.5 Turbo模型登上最新榜单首位,显示出在视频生成质量与效率上的显著突破。此外,在文字转语音(TTS)方向,国内厂商MiniMax同样位列全球领先梯队,体现出中国厂商在多模态生成能力上的系统性优势。

我们认为,国内科技企业在多模态生成领域的快速追赶与领先,源于其在算力优化、数据工程与模型训练效率方面的协同进步,同时得益于庞大的应用场景需求(短视频、游戏等)与高频迭代机制的支撑。随着产业链的成熟和开源生态的活跃,未来国内模型在视频与音频生成方向的国际竞争力有望进一步增强。

Sora 2和相应社交App的发布,掀起多模态+社交的热潮

OpenAI Sora 2在物理规律建模、动态一致性和音画同步等方面实现了全面升级。相比前代版本,Sora 2能够更准确地理解空间关系和时间逻辑,使生成画面在物体运动、光影变化以及角色互动上更贴近现实。其推理能力支持跨镜头叙事和复杂场景控制,能够在不同风格间灵活切换,如写实影像、动画或电影质感。同时,模型具备音频生成能力,可在画面中自动匹配环境声、对白与音乐,从而实现视觉与听觉的深度融合。我们认为,Sora 2的推出是视频生成领域的重要节点,标志着AI从图像生成向“世界级模拟器”方向再一次的演进。

Sora App的商业化路径将逐步清晰。Sam Altman在官方博客中指出,团队正在思考如何通过视频生成实现可持续盈利。为平衡创作生态与商业模式,OpenAI计划与拥有角色版权的内容方建立收益共享机制,即当用户在生成内容中使用受版权保护的角色时,平台将向相关版权所有者分配部分收入。这一机制仍处于试验阶段,具体方案将通过持续的实践进行优化。通过引入版税分成机制,OpenAI有望建立一个兼顾创作自由与知识产权保护的内容生态,让“7亿周活”和AI视频社交生态相互成就。

标注/合成数据都是后训练时代重要的数据来源

数据标注作为监督学习的关键基石,直接决定模型可学性与可靠性与应用成效。数据标注(亦称数据注释)是以语义标签标记原始数据(图像、文本、音频、视频等),使机器学习模型能够理解并从样本中归纳规律。在监督式学习中,带标签样本构成训练时的“事实真相”,因而标注成为人工智能开发的基础环节。实践中,图像可标注物体类别或位置,文本可标注情感或命名实体。高质量标签有助于算法识别模式并提升预测准确度,其作用类似对儿童进行指认式教学,帮助模型形成对世界的表征。若缺乏可靠且充足的标注数据,即便较为先进的系统也难以稳定运行。

人工智能/机器学习应用的普及推动了数据标注行业快速增长。据Mordor Intelligence数据,全球AI数据标注市场规模将从2025年的约19亿美元增长到2030年的近55亿美元,年复合增长率超过20%。增长得益于对标注数据集不断增长的需求,以提高各行业的人工智能准确性。我们认为,主要驱动因素包括对更好机器学习模型(大语言模型LLM)性能的需求、基于LLM的Agent数据需求、机器人数据需求、自动驾驶汽车的激增(需要大量的标注图像/激光雷达数据集),以及医疗保健/金融科技等垂类人工智能中标注使用量的增加。

数据标注方法多样,包括内建、众包外包、托管与人工智能辅助自动化。内建标注由企业员工或领域专家完成,适用于医学影像、语言学等需专业知识的场景,质量较高但在大规模下效率与成本承压。众包与外包依托众包平台(Amazon Mechanical Turk、Toloka)或服务商(Appen、CloudFactory、iMerit、Sama等),以分布式并行提升速度并控制支出,但质量一致性需严格把控;Playment曾组织超30万标注者服务自动驾驶等项目。托管服务由专业团队提供一体化平台与内部质检,配合工具、审核层级和流程,并就本体与标签体系提供建议,降低客户管理负担,如Appen、Scale AI、Surge AI等新兴初创公司。自动化与AI辅助以预标注+人工校验为主,常见平台含Labelbox、Dataloop、SuperAnnotate;Tan等在《Large Language Models for Data Annotation: A Survey》指出用LLM(如GPT-4)在文本标注与审核上展现潜力,但实际项目仍保留人工闭环以确保准确性。

海外:专业化的数据标注公司是海外大厂首选

海外模型厂商相当程度上依赖专业的数据标注公司来标注大模型相关数据,重要玩家包括Scale AI、Surge AI和新兴的Mercor。

1Scale AI:被Meta收购的明星数据标注公司

Scale AIAI数据基础设施为核心定位,形成跨行业数据服务体系。公司成立于2016年,由Alexandr Wang与Lucy Guo共同创立,同年进入Y Combinator孵化。Scale AI定位为“AI数据基础设施”提供商,主营高质量训练数据标注与管理服务,产品包括人工与软件协同的数据标注平台及数据集管理工具。早期聚焦自动驾驶与机器人领域,提供大规模感知数据标注,后逐步拓展至金融、电商、企业软件及国防等行业。随着大语言模型(LLM)兴起,公司推出Outlier平台,招募具备专业知识的人才参与强化学习人工反馈(RLHF)等环节,进一步提升生成式AI模型训练质量。我们认为,Scale AI通过工具体系化与质量控制标准化,构建了在AI产业链中的核心数据基础能力。

公司客户覆盖科技巨头与公共机构,业务在扩张与调整中保持增长。其主要客户包括Google、Microsoft、Meta、General Motors、OpenAI等。自2020年起,公司承担美国国防部项目,2022年获得美国联邦政府总值2.5亿美元合同,提供AI数据工具服务。2023年因市场环境调整裁员约20%,但同年与OpenAI建立合作,成为GPT-3.5模型微调的核心伙伴,并参与ChatGPT训练数据构建。根据TapTwice Digital数据,公司收入由2022年的2.5亿美元提升至2023年的7.6亿美元,2024年进一步增至8.7亿美元,展现出显著的业务扩张趋势。虽然盈利情况尚未披露,但收入增长体现出其在AI生态中的需求稳定性。

资本运作与股权变化推动估值提升,战略引入Meta后或导致客户结构变化。2019年Founders Fund向Scale AI投资1亿美元,推动公司估值首次突破10亿美元,进军独角兽行列。2025年6月,Meta以战略入股方式斥资143亿美元收购49%股权,对应公司估值约290亿美元,成为其历史高点。Meta此举意在借助创始人Wang的能力强化AI战略,确保高质量训练数据供应,并加速Llama等大型模型迭代。然而,Meta成为大股东后,一些竞争企业产生顾虑,例如Google或担心信息泄露而计划终止合作,其他AI实验室亦可能减少依赖。

2Surge AI:收入体量超过Scale AI的数据标注公司

Surge AI以高质量标注与专家化交付持续巩固行业优势地位。Surge AI成立于2020年,创始人Edwin Chen具备谷歌、Meta与推特的机器学习背景,创立初衷是以高质量人类智能提升模型训练效果。公司聚焦高端数据标注,尤其覆盖大模型RLHF(基于人类反馈的强化学习)等核心训练环节,主张“数据质量决定AI上限”。与传统众包不同,其通过智能人才匹配与细粒度能力测评,将具备特定专业背景的标注者分配至相应任务:例如法律类由法律专家评审,文学类由文学专才优化生成质量。现已服务OpenAI、Google、Microsoft、Meta与Anthropic等一线实验室。我们认为,专家化分工与过程治理构成其质量壁垒与口碑基础。

稳健经营与高客单价共同支撑公司盈利与现金流持续提升。公司自成立起采取自筹资金路径,至2025年前未引入外部股权融资,依赖创始人资金与业务现金流实现增长并保持盈利。组织上延续轻资产策略:正式员工约110人,联动超过100万名全球合同标注者形成弹性产能。2024年据路透社信息,公司营收超过10亿美元并实现盈利,规模高于同期Scale AI约8.7亿美元。核心收入来自少量但金额较大的长期项目,单笔合同与客单价多在八位数至九位数美元区间,公司在面向头部客户时具备议价能力,并以合同工结构控制固定人力成本。我们认为,高客单价与成本弹性共同强化利润表现与现金流质量。

客户独立性诉求与行业变动正在为Surge AI创造结构性增长机遇。在生成式AI需求扩张与主要对手出现股权事件的背景下,部分大型实验室为降低信息外泄风险,更倾向选择与大型互联网公司股权关系更疏的独立标注方。如前述,2025年6月Meta以约143亿美元取得Scale AI 49%股权,对应估值约290亿美元,导致出现客户迁移,Surge AI承接相关需求。我们认为,客户对数据隔离与供应链独立性的偏好,或对于更中立的标注公司利好。

资本推进与经营稳健继续推动Surge AI估值抬升。在持续盈利基础上,据路透社信息,Surge AI于2025年7月与顶级机构洽谈首轮融资,计划募资至多10亿美元,估值或由约150亿美元提升至250亿美元以上。

3Mercor:从AI招聘到AI数据标注的成功转型

公司起步于AI招聘并迅速转向高端数据标注业务赛道,以人类在环为核心。Mercor成立于2022年末,早期以“AI招聘”平台自动化简历筛选、面试与匹配;招聘方输入职位需求后,聊天机器人解析要点并匹配候选人。运营中公司观察到AI实验室对高质量人工标注需求攀升,遂在成立不久即转向服务模型训练的数据标注与评估,确立从人才到数据供给的一体化路径。

打造Human Data平台与RLHF工具链,形成可复用训练与评估基础。公司推出“Human Data”方案,招募医生、律师、金融分析师、工程师等专家参与微调、评估与人类反馈;同时自研支持人类在环流程的软件基础设施,并增设面向强化学习的工具与数据管道,支持由人类验证的决策反馈(RLHF)。据TechCrunch信息,公司还协助客户生成与管理代理智能训练环境所需的数据与人力。我们认为,围绕训练环境的供给布局提升了公司在价值链中的位置。

面向头部实验室提供专家数据,供给格局变化带来窗口。Mercor曾为Scale AI提供合同标注人员,后转为直接竞争。进入2025年,据TechCrunch信息,因Meta入股Scale AI并招募其CEO,部分一线实验室(如OpenAI、DeepMind等)基于战略考虑中断与Scale合作,需求外溢为新进入者创造空间。公司客户主要为全球领先的AI研究机构与科技企业,OpenAI、谷歌、Meta、亚马逊、微软、英伟达等均曾在其平台寻求专家支持,Mercor在高复杂度环节对传统外包形成替代。

多轮融资加速扩张,估值持续抬升并获头部资本认可。据TechCrunch信息,Mercor经历多轮融资。种子轮(2023年):General Catalyst领投,约360万美元。A轮(2024年):Benchmark领投,3200万美元,投后估值约2.5亿美元。B轮(2025年2月):Felicis Ventures领投,1亿美元,投后估值20亿美元,老股东跟投,资金用于扩张专家网络与升级平台功能。计划中的C轮(2025年下半年):公司与多家机构洽谈,估值目标上调至100亿美元以上,部分VC拟以SPV参与,交易尚未敲定。

收入快速爬坡并实现盈余,小团队扩张带来管理挑战但规模效应增强。Mercor在成立后营收增长曲线呈指数式攀升。据TechCrunch数据,2023年公司年化经常性收入(ARR)约100万美元,并已实现小幅盈利。进入2025年初,披露的ARR约为7500万美元;2025年3月,公司CEO在X平台宣布ARR突破1亿美元;随后在大模型训练需求推动下,年化收入迅速逼近4.5亿美元(据Sacra数据)。公司向投资人表示,有望以快于Anysphere的速度达到5亿美元ARR里程碑。盈利方面,据Forbes数据,公司2025年上半年净利润约600万美元,显示其商业模式已具备自我造血能力。组织层面,完成B轮融资时公司全职员工共31人,其中美国本土11人、印度及其他地区合同工程师20人;据彭博社报道,公司计划将员工规模由2025年初的约75人扩充至年末约100人。

国内:DeepSeek、Kimi在最新的模型中均系统性使用了合成数据

DeepSeek V3.2合成数据成为提升泛化与推理能力的关键支点。V3.2后训练阶段延续“专家蒸馏+单阶段混合RL”路径,其中合成数据的作用尤为突出。团队通过数学、编程、推理、Agent编码与检索五类专家模型生成多风格高质量合成样本,并区分“思维型”与“非思维型”两类风格,显著扩展了监督样本的覆盖度与多样性。经由单阶段GRPO强化学习融合推理、Agent与人类对齐目标,模型在专家层面性能趋同并实现多域能力平衡。我们认为,V3.2通过系统性引入高质量合成数据,为稀疏架构下的训练稳定性与跨域泛化提供了关键支撑。

Kimi K2通过大规模智能体合成数据体系,系统提升模型的工具使用与任务协同能力。为强化模型的Agent行为与工具调用能力,Kimi团队构建了一个大规模智能体数据合成流水线。该体系在数百个应用领域中系统生成了数千种真实与合成工具,并据此构建数百个具差异化工具集的智能体。智能体在模拟环境中与用户代理进行多轮交互,生成逼真的工具使用场景与任务数据。所有任务均采由LLM评审器根据任务规范筛选高质量样本,确保数据的一致性与有效性。通过这一流程,K2获得了大规模、多样化且具真实性的训练数据,为后续强化学习与复杂任务泛化奠定了坚实基础。我们认为,K2的合成数据策略不仅显著扩展了高质量监督信号的规模,也构建了可持续演化的Agent数据生产机制,为智能体能力的系统性提升提供了关键支撑。

投资建议

算力

算力投资逻辑未变,训练端需求稳步上行,中长期空间仍具可见性。我们依然看好算力方向。据OpenAI现在的算力规划,成体系的大型算力中心合计已超过36GW(图表18),奠定大模型发展的容量基础。长期看,模型仍在迭代,OpenAI、Google等头部厂商在预训练与后训练上持续突破,训练侧的算力需求延续抬升,节奏随模型版本迭代与能力拓展而推进。我们认为,训练端扩容将保持韧性,硬件投入与软件优化将以版本迭代/架构升级为核心线索展开。

AI搜索与应用生态扩张抬升推理侧算力需求,用户规模成为直接催化。Google在全球多国持续扩展AI Overview、AI Mode等搜索功能,例如25年10月AI Mode引入36种新语言/40多个新国家和地区,使其覆盖总计200多个国家和地区,搜索类场景调用频次与Token消耗同步走高。OpenAI在2025年开发者大会上全力打造应用生态,周活用户达到8亿;随用户与场景扩大,推理端对吞吐与响应的要求同步提升,对应算力需求走强。我们认为,推理侧的边际增量突出,将对上游供给提出更高并发与更低时延的配置要求。

多形态产品与自主Agent路线将进一步放大推理算力需求边界空间。OpenAI后续规划包含硬件类产品、Agent类产品,以及类似Pulse等自主Agent推理形态,应用从单一对话向多Agent协同/多工具调用/自主推理等延展,推理规模与复杂度上升,带动算力投入强度提升。我们认为,上述产品化与生态化推进,将延续推理算力的高强度需求,对算力基础设施与相关产业链的投资形成持续支撑。

NVIDIA先进芯片几乎撤出中国,国产算力将接棒。据South China Morning Post于2025年10月信息,NVIDIA创始人兼首席执行官黄仁勋指出,由于美国出口限制,NVIDIA不被允许向中国大陆公司出售其先进产品,导致NVIDIA在中国先进芯片市场的份额已从95%降至0。叠加国内互联网厂商在AI芯片上的采购国产化趋势愈发明确,外采第三方方案与自研路线同步推进,构建多元化供给体系。该路径一方面有助于缩短迭代周期并优化成本结构,另一方面增强关键环节的自主可控与稳定性,带动本土生态协同升级。我们认为,并行策略将持续提升国产芯片规模化落地效率与韧性。

存储

AI存储架构需同时提升容量、吞吐与可靠性,强调低时延协同。模型训练侧强调稳定写入与快速恢复检查点;模型推理侧强调高效查询与即时响应,整体对存储系统的扩展性与可用性提出更高要求。硬盘用于保留AI模型创建的内容,并维护模型检查点与查询数据;SSD与内存承担高并发、低时延的数据通路。我们认为,大容量HDD与高性能SSD的协同,将与算力投入并行成为中长期建设重点。

训练端遵循Scaling Law驱动容量扩张与分层优化。随着模型参数与能力扩展,训练对数据规模、丰富度与标注质量的要求同步提高,多模态(图片、视频等)样本需持续汇聚与留存,以支撑迭代与对比验证。数据来源更分散、格式更复杂,催生原始样本与清洗版本的多副本管理与分层留存需求,并对高吞吐、可扩展与高可靠的存储系统提出更高门槛。我们认为,训练端将以容量扩充与分层优化为主要投入方向。

视频多模态模型渗透推动推理侧容量与带宽同步上行。多模态模型逐步成熟后,线上推理对素材、缓存与生成成品的留存显著扩大,并发访问与调用频率提升。据希捷科技数据,以量级估算:单张图片约1MB、音频约5MB、视频按分钟计约50MB;随模型能力增强,生成视频在分辨率与时长方面有望继续上行,单体内容容量需求抬升。叠加Sora App等应用的病毒式传播提升创作者渗透率与内容产量,存储将面临文件变大与市场扩展的双重抬升。我们认为,推理端需前瞻规划容量与带宽冗余。

视频生成分发催化边缘低时延存储与SSD加速建设。Sora App带来病毒式AI视频短片,个性化信息流持续推送热点内容;为保障即时分发与多并发体验,视频依托低时延内存与SSD从本地边缘缓存中快速检索与回源。该模式对边缘节点的容量、IO路径与读写效率提出更高要求,并推动本地缓存与中心存储的协同调度与分层管理进一步细化。我们认为,视频生成分发将成为边缘存储与SSD加速的重要增量来源。

电力

电力约束抬升算力门槛,能源成为AI时代稀缺要素。AI训练与推理持续推高用电负荷,据彭博新能源财经(BNEF)预测,至2035年美国数据中心电力需求将由2024年的近35吉瓦增至78吉瓦,平均每小时用电由16吉瓦时升至49吉瓦时。AI与能源已“合二为一”,有效算力的度量正转向以吉瓦为单位的供电能力。我们认为,能获得稳定低价电力者,将在算力竞争中占据结构性优势。

核能被视为稳定低碳的中长期解法,海外头部云厂商等已签订多个电力购买协议(PPA)。美国电网当前面临需求激增与多年投资滞后叠加,SMR(小型模块化反应堆)有望成为新增负荷的重要抓手。海外头部厂商,包括微软、Gogole、亚马逊、Meta均与SMR厂商签订了相关协议或PPA。

核电产业链条清晰,上中下游均有相关产业链标的上游涵盖铀矿与燃料加工;中游为设计、研发与建造;下游为运营与售电;另还有配套设备。

矿场改造提供即取电力+快速落地的替代路径,缓解新建项目周期长的矛盾。据劳伦斯伯克利国家实验室(LBNL)最新队列研究显示,新建大型数据中心从并网申请到商运的中位时长已接近5年,并持续拉长;在弗吉尼亚,Dominion报告大型数据中心接网等待可至约7年。据Investing数据,美国比特币矿企已具约6.3吉瓦在运营站点,另有2.5吉瓦在建;其“企业价值/瓦特(EV/W)”处于较低水平,若转型数据中心,股权价值测算约5-8美元/瓦。矿企同时具备电价优势与现成基础设施:改造成本约500-800万美元/兆瓦,显著低于新建AI数据中心的千万美元/兆瓦量级(据路透社数据,1吉瓦的AI基础设施对应500亿美元投入,对应为5000万美元/兆瓦)。我们认为,矿场改造可在电力获取、工期与资本开支之间形成效率解。

转型样本显示电力+场地+合约组合正加速向AI云迁移。IREN披露已与头部AI公司签订多年期AI云合同,落地约1.1万块GPU订单,预计2025年底AI云年化经常性收入(ARR)约2.25亿美元;至2026年一季度,2.3万块GPU对应的ARR有望达5亿美元;NVIDIA Blackwell交付前合同平均期限约2年;其在不列颠哥伦比亚及Horizon 1/2园区的可用容量可容纳超10万块GPU,客户正推进现场参观、技术尽调与商务谈判。我们认为,上述进展验证矿企电力资产与园区资源的再配置能力,为AI基础设施供给提供可操作增量。

应用

AI应用是后续AI商业化落地的核心战场与抓手。在OpenAI加速扩展数据中心的同时,2025年9月OpenAI与Stripe合作推出ACP支付协议,打通ChatGPT内的即时支付功能,形成商业化变现闭环。首批接入ChatGPT应用生态的厂商包括Etsy、Shopify两家电商,以及Figma、Zillow、Expedia、Instacart、Salesforce、Spotify、Duolingo等各垂类应用。

国内入口卡位稀缺、覆盖较多2B/2C客户的标的更易受益于AI应用商业化浪潮。面向国内AI应用标的,我们延续“生态优先”的判断框架:以平台级入口为抓手、具备服务企业(2B)或消费者(2C)的用户结构,并能与模型、支付与分发渠道形成闭环者,更有望在应用商业化范式变化中率先兑现。此类公司通常兼具稳定的终端触达与企业服务能力,能通过API、插件或原生场景快速嵌入,放大用户黏性与付费转化。我们认为,入口卡位、用户结构齐备与生态协同将构成筛选受益标的的关键标准。

宏观经济波动。若宏观经济波动,可能对AI产业资本投入产生负面影响,导致AI产业变革、新技术落地节奏、整体行业增长不及预期。

技术进步不及预期。若AI技术、大模型技术、AI应用进展不及预期,或对行业落地情况产生不利影响。

中美竞争加剧。中美竞争加剧,或影响国内算力基础设施布局,导致国内AI大模型技术迭代速度放缓。

研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。