返回指南

Robotics, Physical AI, and Synthetic Data

面向工业 Physical AI 与机器人训练的合成数据

介绍如何利用可执行数字孪生、工业场景语义、传感器仿真和带标签的合成数据,为 Physical AI 与机器人训练工作流做准备。

面向工业 Physical AI 与机器人训练的合成数据

为什么工业合成数据需要数字孪生

真实机器人数据很有价值,工业现场的数据采集常常成本高、风险高、周期长,也难以重复。设施环境还存在大量长尾状态:通道被临时占用、托盘位置变化、柜门开启、光照变化、人员移动、班次流程变化,以及短时间出现的设备状态。

合成数据可以让团队在可控环境中覆盖更多变化。对于工业 Physical AI,数据应来自理解资产、几何、运营规则、传感器位置、任务目标和流程状态的场景。数字孪生为数据管线提供这层上下文。

DataMesh Robotics 利用 DataMesh 产品栈准备工业场景、生成多模态训练数据,并把输出连接到机器人仿真与训练工作流。真正有价值的是完整链路:可执行场景、任务定义、传感器配置、标签生成、导出、评估和治理。

工业场景的特殊性

工业机器人数据需要表达对象外观之外的运营含义:

层级数据管线需要什么
资产身份设备名称、对象类型、模型版本,以及回到运营数字孪生的关联
空间上下文区域、车道、通行空间、间距、坐标和安全区域
流程状态产线状态、工位状态、工作步骤、异常状态和事件时序
传感器配置相机、深度、LiDAR、机器人位姿、视场、标定、噪声模型和采样规则
物理属性质量、摩擦、关节、约束、材料行为和接触假设
标签与元数据分割、边界框、实例 ID、深度、姿态、轨迹、任务状态和场景变量
评审记录数据集版本、场景版本、假设、生成配方、质量发现和审批备注

这样的结构帮助机器人团队理解数据集代表什么,以及如何复现或调整。

DataMesh 工作流

  1. 建模环境 - 在 FactVerse 中构建工厂、设施、仓库、工作单元或巡检区域,并加入资产、区域、元数据和关系。
  2. 编排场景行为 - 使用 FactVerse Designer 定义布局方案、流程逻辑、对象运动、任务步骤、事件触发和场景节奏。
  3. 准备仿真资产 - 对齐 CAD、BIM、3D、OpenUSD、材质、尺度、坐标系,以及需要更丰富仿真时的 SimReady 准备规则。
  4. 配置传感器与任务 - 定义相机、深度传感器、机器人视角、目标对象、任务目标、成功条件和约束。
  5. 生成带标签数据 - 生成 RGB、深度、分割、边界框、实例 ID、姿态、轨迹、流程状态和场景元数据。
  6. 导出到训练栈 - 将数据集和场景资产打包到机器人训练、评估、Isaac Sim / Omniverse 工作流或企业工具链。
  7. 评审并迭代 - 跟踪数据质量、场景覆盖、标签一致性、任务覆盖和下游评估结果。

这个流程让数据生成始终连接运营上下文,数据集也更容易解释、审计和改进。

DataMesh 产品栈分工

FactVerse 是运营数字孪生基础,保存场地结构、资产、关系、数据上下文、权限和场景记录。

FactVerse Twin Engine 提供可执行数字孪生运行时上下文,覆盖几何、数据绑定、行为和交互状态。

FactVerse Designer 是布局、流程逻辑、行为树、任务步骤和场景方案的创作环境。

DataMesh Robotics 聚焦合成数据生成、标签输出、任务定义、奖励设置和机器人管线准备。

FactVerse Adaptor for NVIDIA Omniverse 在团队需要高保真渲染、传感器仿真、物理验证或外部仿真工具时,把 FactVerse 场景连接到 OpenUSD 与 Omniverse 工作流。

Data Fusion Services 在场景需要设备状态、报警、生产信号或设施上下文时,连接实时与历史运营数据。

数据集规格清单

生成数据之前,先定义数据集约定:

  • 目标机器人、传感器、模型类型或下游训练栈。
  • 环境范围、场景版本、资产清单和坐标系。
  • 任务范围、目标对象、流程状态和成功标准。
  • 传感器配置、相机路径、视角、标定和噪声假设。
  • 光照、材质、对象摆放、设备状态、路线状态和流程节奏的变化规则。
  • 需要输出的 RGB、深度、分割、边界框、姿态、轨迹和场景元数据。
  • 标签一致性、类别覆盖、空间精度和场景覆盖等质量检查。
  • 导出格式、命名规则、数据集版本和评审负责人。

这份规格连接仿真工程师、机器人团队、数据团队和运营负责人。

适合优先启动的场景

  • 感知数据集:为工业对象、设备、工具、托盘、标识、夹具和作业区域生成带标签图像与深度数据。
  • 巡检工作流:围绕资产、面板、仪表、管线、柜体和难以接近的位置生成视角与标签。
  • 移动机器人场景:准备车道、障碍物、路线状态、暂存区、对接点和变化中的设施条件。
  • 操作与接触任务:描述对象姿态、材料行为、抓取约束、接触状态和任务序列,支持仿真评审。
  • 工厂与仓储规划:在实体试验前组合布局方案、物料流、机器人路径和运营约束。

第一个用例应具备清晰任务定义、受控环境范围,以及与下游训练或仿真团队共同参与的评审闭环。

质量与治理指标

工业合成数据应通过工程检查来评估:

  • 目标区域、对象类别和流程状态的场景覆盖。
  • 生成帧与场景版本之间的标签一致性。
  • 光照、摆放、遮挡、对象状态和传感器位姿的变化覆盖。
  • 尺度、碰撞、接触、路线状态和时序的物理一致性。
  • 在下游仿真器或训练栈中的集成质量。
  • 从数据集版本回溯到场景版本、生成配方和假设的可追踪性。
  • 下游模型评估或机器人仿真评审中的经验反馈。

成熟的项目会把合成数据当作工程资产管理。每个数据集都应有负责人、版本、假设、质量检查和生成目的。

公开参考

DataMesh Robotics 发布介绍了合成训练数据、可执行工业数字孪生、任务目标、奖励设置和机器人管线准备的公开方向。

GTC 2025 展示展示了 DataMesh 仿真数字孪生与 FactVerse、NVIDIA Omniverse 工作流的结合。

FactVerse 与 NVIDIA Omniverse 平台文章说明了 FactVerse 场景上下文如何连接 Omniverse,用于仿真数字孪生工作流。