简体
  • 简体中文
  • 繁体中文

热门资讯> 正文

对话大晓机器人王晓刚:从数字世界到物理世界,探索机器人新范式

2025-12-18 23:35

来源:DeepTech深科技

十一年前,王晓刚和汤晓鸥一起,让计算机视觉的识别率第一次超越了人类肉眼。那是 2014 年,人工智能 1.0 时代的开端,视觉技术从实验室走向了安防、手机和汽车。

十一年后,当所有人都还在为大语言模型狂欢,或者忙着在发布会上展示机器人“叠衣服”、“做咖啡”的 Demo 时,王晓刚嗅到了一丝危险的气息。互联网上的语料快被榨干了,纯粹的数字世界正在逼近天花板。

2025 年,具身智能被视为继大语言模型后的下一块人工智能高地,玩家们都在赌谁能先造出通用的“机器管家”。但现实是残酷的:大多数机器人依然只能在视频里闪烁高光,一旦走进真实的杂乱环境,就会因为缺乏常识而寸步难行。

图|

大晓机器人核心科学家团队(来源:大晓机器人)

在 12 月 18 日举行的新品发布会前夕,我们与王晓刚进行了一场深度对话。此时此刻,具身智能赛道正处于一种“冰火两重天”的状态:一方面是资本的狂热追捧,另一方面是技术落地中遭遇的“数据荒”与“物理幻觉”瓶颈。

现有的机器人研究范式是否走错了方向?为什么说互联网语料快被“榨干”了?Sora 等生成式模型在物理世界中存在什么致命缺陷?以及,为什么要在这个时间点选择开源,并押注国产芯片生态?

在这个时间节点,大晓机器人不仅要发布一个新的世界模型,更要开源一套全新的生存法则。“现在的研究范式走错了,”王晓刚直言不讳。他抛出了一个判断:如果继续以“机器”为中心去训练大脑,具身智能将永远困在 Demo 里;唯有回到以“人”为中心,用世界模型重构物理规律,才能撞开 AI 3.0 的大门。

图|

大晓机器人首席科学家陶大程(来源:大晓机器人)

以下是对话全文。

AI2.0 到 AI3.0:从数字世界到物理世界

“互联网语料快被榨干了,我们必须打破数字与物理的墙”

DeepTech:你现在的新身份是大晓机器人董事长。和之前在商汤负责研发、汽车、芯片等业务的角色相比,现在侧重的目标有什么不同?

王晓刚:其实我在商汤是从 2014 年开始的,当时和汤老师一起创立商汤。那时候我们是第一个做到人脸识别超越肉眼识别率的。在过去十年里,我在商汤负责过研发,也包括手机、互联网、汽车、芯片等很多不同的业务方向。今天我们面临的,是从人工智能 1.0 到 3.0 的跃迁。

所谓人工智能 1.0 时代,就是 2014 年那个时候。我们有了视觉技术,靠的是大量人工标注和小模型来实现人工智能的应用。到了 2.0 时代,也就是大模型,特别是大语言模型带来的通用化能力。因为人类历史上几千年积累了海量的语言文字数据,记录了人类的行为,大模型把这些沉淀的智能提取出来,赋能各个行业。

DeepTech:所谓的 3.0 是什么?

王晓刚:今天我们也看到,大语言模型依赖的这些互联网语料、数字世界的沉淀和积累,也到了一个瓶颈。未来两三年,这些语料的价值也会逐渐被“榨干”。

所以人们想打破数字世界和物理世界的限制,通过具身智能,通过跟物理世界的交互去产生新的智能,这就是我们说的人工智能 3.0 时代。

这里面一个很重要的任务,就是通过技术的创新,让商汤从原来的 2.0 时代进入 3.0 时代。

DeepTech:大晓机器人和商汤是什么关系?

王晓刚:大晓在商汤“1+X”战略布局。我们希望完成一个软硬结合的产业链垂直整合。之前商汤做得比较多的是软件和 ToB 的赋能角色,但在具身智能这个领域,我们有机会做软硬一体,把业务做得更大。

所以我这边的目标总结下来就是三点:第一,实现从 AI 2.0 到 3.0 的跨越;第二,把商汤历史上积累的经验沉淀带到物理世界;第三,完成软硬结合的垂直整合。

DeepTech:既然是生态企业,大晓和商汤具体怎么分工?哪些是共享的,哪些是大晓独立研发的?

王晓刚:这是一种非常紧密的合作关系。大晓提供具身智能的软件平台和硬件平台。但机器人要进入千行百业,需要了解行业的痛点和渠道,这正是商汤过往积累的优势。

商汤的业务团队可以基于大晓提供的软硬件具身平台,去开发具体的行业应用,解决具体的痛点。这能解决目前具身智能落地的一个大问题——很多公司演示的 Demo 很好,但对场景理解不深,难以落地。

举个例子,我们会推出一个“具身超级大脑模组 A1”。现在这个模组加装在四足机器人(机器狗)上,有了它,机器狗就能在室外不依赖高精度地图实现点到点的自主导航。

这个过程中,机器狗采集到的视频数据,会跟商汤后台的“方舟平台”打通。方舟平台上有超过 150 个 AI 相关的应用。通过这种结合,机器人的应用价值就被极大地放大了。

范式革命:以人为中心的具身智能

“以机器为中心的范式走不通,必须转向以人为中心”

DeepTech:2025 年是你所说的 AI 3.0 时代的一个关键节点吗?会有什么标志性事件?

王晓刚:我觉得 2025 年一个非常重要的代表性突破,或者说改变,是研究范式的改变。

大家对具身智能的期待源自于互联网时代的经验。在 2.0 时代,大模型让我们以为,只要有一个强大的大模型,机器人就能在物理世界里通用了。但在过去两年里,大家在执行过程中遇到了巨大的阻力。

DeepTech:阻力具体体现在哪里?

王晓刚:之前大家的做法是:先有了各种不同形态的机器人,结构各不相同。人们通过遥操作(Teleoperation)控制这些机器人去采集数据,然后把数据聚合在一起,试图训练一个通用的机器人大脑。

但大家发现,这种模式是不成功的。

首先,训练出来的所谓“大脑”很难用到不同的本体上,数据不能共享。其次,通过人操作机器采集数据的效率非常低,而且往往不是在真实的生产生活环境中采集的。

我们把这种旧的研究范式叫做 Machine-centric(以机器为中心)。它的核心逻辑是 VLA(Vision-Language-Action),通过视觉和语言指令,直接让机器去完成特定任务。这种范式训练出来的大脑不需要理解物理世界到底是什么样,只是为了完成任务。

DeepTech:2025 年的新范式是什么?

王晓刚:2025 年一个非常大的转变,就是从 Machine-centric 转变为 Human-centric(以人为中心)。

这个起点大概在 2025 年年初。当时我们团队在南洋理工大学的刘子纬教授带领下,提出了“环境式采集”。

所谓环境式采集,就是利用第一视角的眼镜、穿戴式设备,以及第三视角的传感器,在人真实的生产生活环境中去记录人的行为。通过这些记录,训练出一个“世界模型”。这个世界模型要理解人跟物理世界交互的规律是什么,因果关系是什么。

今年,刘子纬教授发布了 Egolife记录了 300 小时人类行为时,像 Meta 的 Yann LeCun 团队就基于这个数据集完成了具身世界模型的训练。到了 8、9 月份,特斯拉和 Figure AI 也宣布转向视觉路线,通过摄像头记录人的行为来快速积累数据。

DeepTech:这种新范式带来的最直接的好处是什么?

王晓刚:数据量级的跃升。

在以机器为中心的时代,大家积累的数据大概是十万小时这个量级。要知道,特斯拉 FSD 做自动驾驶用到了大概 400 万小时的高质量数据。具身智能的场景复杂度更高,需要的数据更多。

通过以人为中心的研究范式,我们能积累的数据可以达到千万小时这个级别。这才是让具身智能具备通用化能力、拥有强大大脑的正确路径。

所以,2025 年发生了非常重要的变化,给具身智能的发展打开了一条新的思路。

解密:环境式采集与数据壁垒

“一天采集效率提升 100 倍,解决上万种物品的抓取难题”

DeepTech:你提到的“环境式采集”技术听起来很有意思,在实际落地中具体是怎么做的?一天能产出多少数据?

王晓刚:我们这套采集方案,需要人佩戴第一视角的摄像头,同时还会带上全景相机,这样能看到人周围的环境和自己的身体。手上和胸口也会带摄像头,特别是手上会带一些触觉传感器,能感受到接触物品时的材质和力。周围环境里也会部署深度摄像头等。

所有的设备都是同步的。人不需要操作机器人,只需要正常做工作,数据自然就被采集下来了。

DeepTech:可以举一个具体的落地场景吗?

王晓刚:比如我们在杭州的一个闪购仓(前置仓)试点。

现在的零售行业,大家在网上下单,城市里有很多这样的前置仓。仓库里有大量货品,需要工作人员进行分拣、打包,交给外卖小哥。这个工作需要 7x24 小时进行。

这个场景最难的地方在于,物品类别特别多,有上万个 SKU。以前大家做具身智能,用真机采集数据,基本只能覆盖几十个或者上百个类别。面对上万个类别,真机采集根本做不过来。

DeepTech:用环境式采集能解决这个问题吗?

王晓刚:对。有了这套设备,工作人员可以一边工作,一边采集数据。

一个人一天工作 10 个小时,就能采集 10 个小时的数据。而且因为人手的灵活度远高于遥操作机器人,单一采集效率可能有 10 倍的增长。

更重要的是部署方便。以前得在实验室里雇人操作机器人,现在我可以有几百人、上千人都带着这些设备,在正常工作中采集。这样数据积累的速度可能是原来的 100 倍,也就是两个数量级的增加。成本更低,效率更高。

DeepTech:采集上来的数据质量如何把控?有没有具体的标准?

王晓刚:我们有一套自动化的流程来提取关键信息。

比如人的肢体 3D 姿态、手部的 3D 手势、接触物品的种类和姿态、物品的 3D 形状等。还会提取人与环境交互的信息,比如我坐在椅子上、趴在桌子上、爬梯子,这些 3D 交互关系都会被建模。

还有材质信息,比如一个瓶子,人通常抓哪里?抓的时候摩擦力如何?受力情况如何?这些都会通过自动化流程提取出来。

核心:开悟 3.0 世界模型

“解决‘水倒进槽里杯子却满了’的物理幻觉”

DeepTech:采集了数据之后,如何解决跨本体复用的问题?毕竟人的手和机器人的手不一样。

王晓刚:这就体现了世界模型的重要性。

我们把采集的数据输入到世界模型里。世界模型有三个部分:第一是多模态理解,理解世界是什么样子;第二是生成,大脑可以想象场景;第三是预测,预测动作和结果。

我们即将发布的“开悟 3.0”世界模型平台,既包含了人类数据,也包含了一些不同类型机器人的本体数据。

在平台上,你可以选择场景和任务,然后选择机器人本体(比如宇树、智元等)。因为我们有这些机器人的物理参数,世界模型就会根据任务生成针对该本体的视频和 3D 轨迹数据,用来训练这个本体。

这就是我们说的“一脑多形”——一个世界模型大脑,适配不同的机器人形态。

DeepTech:“开悟 3.0”和市面上其他的世界模型(比如 Sora、Gen-2 等)有什么技术上的不同?

王晓刚:市面上的模型,比如李飞飞团队的 World Labs,很多只能生成静态的世界,做漫游,无法把物体和环境分离开。

另一点非常重要的是对物理规律的表达。

DeepTech:物理规律是现在生成式视频的一个大痛点。

王晓刚:对。像 Sora、Gemini、Cosmos 这些模型,本质上是生成式网络,缺乏对多模态世界的深刻理解和物理预测。

举个例子,我们让机器人拿杯子去水龙头接水。这需要符合流体力学。但在 Sora 生成的视频里,有时候你会发现,水明明倒在了水槽里,杯子里的水却莫名其妙涨起来了;或者水倒进杯子,周围水槽却有水溅出来。这都是不符合物理规律的。

如果不解决这个问题,机器人就会学到错误的逻辑。我们在构建世界模型时,底层加入了很多物理常识和规律的约束。

DeepTech:你们内部怎么量化这个“物理规律”的准确性?

王晓刚:我们有一个指标叫“成片率”。

生成视频后,我们会检查它是否符合物理规律。早期可能 100 个视频里只有个位数是可用的,现在我们的成片率已经越来越高,能达到 50% 以上。

更精细的度量还包括相机位姿的反推准确性、生成图像与真实图像的差异等。

战略:开源与国产芯片适配

“在具身智能领域,我们希望成为开源的标杆”

DeepTech:我听说大晓这次会开源开悟 3.0,具体会开源到什么程度?

王晓刚:我们的模型、工具链、以及部署方法都会开源。

特别值得一提的是,这次我们把开源模型适配到了国产芯片上,包括沐曦、海光、壁仞等。

在国产芯片时代,模型需要和芯片做深度适配,我们做完软硬协同优化后,极大提升了芯片性能,能达到 A 卡(英伟达)的效果。有了模型和算力基础,我们就能构建物理世界的“DeepSeek 时刻”,实现“算力—模型—应用”的全方位迭代。

DeepTech:开源对大晓的商业化有什么影响?

王晓刚: 开源和平台是相辅相成的。开源能让大家熟悉我们的模型。同时,世界模型的训练和推理需要大量算力,我们把 API 部署在云上(商汤大装置、腾讯云等)。用户使用云服务时,我们和云厂商都能获得收益。

DeepTech:从长期看,开源对初创公司的护城河有什么意义?

王晓刚:在大模型领域,DeepSeek 是一个很好的例子。它通过开源产生了巨大的行业影响力。

我们希望在物理世界、在具身智能领域,让“开悟 3.0”成为对标 DeepSeek 的存在。这个行业需要先发优势。当我们先把高质量的开源项目做出来,用的人多了,就会形成聚集效应。芯片公司也会主动来适配我们,生态就建立起来了。

落地:产品与未来

“机器狗,前置仓,到家庭机器人”

DeepTech:这次发布会有哪些交付形态的产品?

王晓刚:我们会发布几样东西:ACE 研发范式:环境式采集(Ambient Capture Engine);开悟 3.0 平台,并且开源;以及具身超级大脑模组 A1,这是一个软硬结合的产品,目前最先搭载在四足机器人上。

有了这个模组,机器狗在户外就具备了自主空间能力,不需要人遥控,可以通过语音控制它去目的地执行任务。我们的机管平台还和商汤的方舟平台打通,直接调用 150 多种 AI 应用。

此外,我们在模组硬件上也有创新,引入了 Insta360 的全景相机。现有的机器人摄像头视野窄、不稳。全景相机能做到 360 度无死角,画质和稳定性大幅提升,这对夜间作业和 AI 识别非常有帮助。

DeepTech:大晓目前最优先落地的场景是哪些?

王晓刚:我们有近期、中期、远期的规划。

近期(现在),重点是户外四足机器人。虽然提供情绪价值(表演)的市场比较成熟,但规模有限。我们看重的是生产力提升,比如电力巡检、文旅、智慧城市。加上我们的模组,机器狗就能具备空间自主能力,实现规模化应用。

中期(2 年左右),我们希望把前置仓(闪购仓)这个场景做下来。明年大概会有十几万个这样的仓库,场景非常类似。一旦做好,规模化落地速度会很快。

远期(5 年后),就是家庭场景。这目前还属于预研性质,也是像 Figure AI 这样的公司的长远目标。

DeepTech:最后一个我比较好奇的问题,“大晓”这个名字是怎么来的?是你和大程(商汤联合创始人)老师的名字合在一起的吗?

王晓刚:(笑)是这样。我和大晓机器人首席科学家陶大程是中科大的师兄弟,在汤老师那边读硕士时还是寝室室友,关系非常好,有很深的信任。在具身智能这个机会点上,我们觉得能一起合作做些事情。

但“大晓”这个名字还有衍生的含义。我们在发布会上给出的解释是:“大千世界,晓识万象”。

“大千世界”讲的是我们的世界模型,要理解这个世界;“晓识万象”讲的是我们的环境式采集,通过感知去理解人和环境的交互。这正好契合了我们未来具身智能的两个核心方向。

风险及免责提示:以上内容仅代表作者的个人立场和观点,不代表华盛的任何立场,华盛亦无法证实上述内容的真实性、准确性和原创性。投资者在做出任何投资决定前,应结合自身情况,考虑投资产品的风险。必要时,请咨询专业投资顾问的意见。华盛不提供任何投资建议,对此亦不做任何承诺和保证。