返回指南

Robotics, Physical AI, and Synthetic Data

面向工業 Physical AI 與機器人訓練的合成資料

介紹如何利用可執行數位孿生、工業場景語義、感測器模擬和帶標籤的合成資料,為 Physical AI 與機器人訓練工作流做準備。

面向工業 Physical AI 與機器人訓練的合成資料

為什麼工業合成資料需要數位孿生

真實機器人資料很有價值,工業現場的資料採集常常成本高、風險高、週期長,也難以重複。設施環境還存在大量長尾狀態:通道被臨時占用、托盤位置變化、櫃門開啟、光照變化、人員移動、班次流程變化,以及短時間出現的設備狀態。

合成資料可以讓團隊在可控環境中覆蓋更多變化。對於工業 Physical AI,資料應來自理解資產、幾何、營運規則、感測器位置、任務目標和流程狀態的場景。數位孿生為資料管線提供這層脈絡。

DataMesh Robotics 利用 DataMesh 產品棧準備工業場景、生成多模態訓練資料,並把輸出連接到機器人模擬與訓練工作流。真正有價值的是完整鏈路:可執行場景、任務定義、感測器配置、標籤生成、匯出、評估和治理。

工業場景的特殊性

工業機器人資料需要表達物件外觀之外的營運含義:

層級資料管線需要什麼
資產身份設備名稱、物件類型、模型版本,以及回到營運數位孿生的關聯
空間脈絡區域、車道、通行空間、間距、坐標和安全區域
流程狀態產線狀態、工位狀態、工作步驟、異常狀態和事件時序
感測器配置相機、深度、LiDAR、機器人位姿、視場、標定、噪聲模型和採樣規則
物理屬性質量、摩擦、關節、約束、材料行為和接觸假設
標籤與元資料分割、邊界框、實例 ID、深度、姿態、軌跡、任務狀態和場景變數
評審記錄資料集版本、場景版本、假設、生成配方、品質發現和審批備註

這樣的結構幫助機器人團隊理解資料集代表什麼,以及如何重現或調整。

DataMesh 工作流

  1. 建模環境 - 在 FactVerse 中構建工廠、設施、倉庫、工作單元或巡檢區域,並加入資產、區域、元資料和關係。
  2. 編排場景行為 - 使用 FactVerse Designer 定義布局方案、流程邏輯、物件運動、任務步驟、事件觸發和場景節奏。
  3. 準備模擬資產 - 對齊 CAD、BIM、3D、OpenUSD、材質、尺度、坐標系,以及需要更豐富模擬時的 SimReady 準備規則。
  4. 配置感測器與任務 - 定義相機、深度感測器、機器人視角、目標物件、任務目標、成功條件和約束。
  5. 生成帶標籤資料 - 生成 RGB、深度、分割、邊界框、實例 ID、姿態、軌跡、流程狀態和場景元資料。
  6. 匯出到訓練棧 - 將資料集和場景資產打包到機器人訓練、評估、Isaac Sim / Omniverse 工作流或企業工具鏈。
  7. 評審並迭代 - 跟蹤資料品質、場景覆蓋、標籤一致性、任務覆蓋和下游評估結果。

這個流程讓資料生成始終連接營運脈絡,資料集也更容易解釋、稽核和改進。

DataMesh 產品棧分工

FactVerse 是營運數位孿生基礎,保存場地結構、資產、關係、資料脈絡、權限和場景記錄。

FactVerse Twin Engine 提供可執行數位孿生運行時脈絡,覆蓋幾何、資料綁定、行為和互動狀態。

FactVerse Designer 是布局、流程邏輯、行為樹、任務步驟和場景方案的創作環境。

DataMesh Robotics 聚焦合成資料生成、標籤輸出、任務定義、獎勵設定和機器人管線準備。

FactVerse Adaptor for NVIDIA Omniverse 在團隊需要高保真渲染、感測器模擬、物理驗證或外部模擬工具時,把 FactVerse 場景連接到 OpenUSD 與 Omniverse 工作流。

Data Fusion Services 在場景需要設備狀態、警報、生產訊號或設施脈絡時,連接即時與歷史營運資料。

資料集規格清單

生成資料之前,先定義資料集約定:

  • 目標機器人、感測器、模型類型或下游訓練棧。
  • 環境範圍、場景版本、資產清單和坐標系。
  • 任務範圍、目標物件、流程狀態和成功標準。
  • 感測器配置、相機路徑、視角、標定和噪聲假設。
  • 光照、材質、物件擺放、設備狀態、路線狀態和流程節奏的變化規則。
  • 需要輸出的 RGB、深度、分割、邊界框、姿態、軌跡和場景元資料。
  • 標籤一致性、類別覆蓋、空間精度和場景覆蓋等品質檢查。
  • 匯出格式、命名規則、資料集版本和評審負責人。

這份規格連接模擬工程師、機器人團隊、資料團隊和營運負責人。

適合優先啟動的場景

  • 感知資料集:為工業物件、設備、工具、托盤、標識、夾具和作業區域生成帶標籤圖像與深度資料。
  • 巡檢工作流:圍繞資產、面板、儀表、管線、櫃體和難以接近的位置生成視角與標籤。
  • 移動機器人場景:準備車道、障礙物、路線狀態、暫存區、對接點和變化中的設施條件。
  • 操作與接觸任務:描述物件姿態、材料行為、抓取約束、接觸狀態和任務序列,支援模擬評審。
  • 工廠與倉儲規劃:在實體試驗前組合布局方案、物料流、機器人路徑和營運約束。

第一個用例應具備清晰任務定義、受控環境範圍,以及與下游訓練或模擬團隊共同參與的評審閉環。

品質與治理指標

工業合成資料應透過工程檢查來評估:

  • 目標區域、物件類別和流程狀態的場景覆蓋。
  • 生成幀與場景版本之間的標籤一致性。
  • 光照、擺放、遮擋、物件狀態和感測器位姿的變化覆蓋。
  • 尺度、碰撞、接觸、路線狀態和時序的物理一致性。
  • 在下游模擬器或訓練棧中的整合品質。
  • 從資料集版本回溯到場景版本、生成配方和假設的可追蹤性。
  • 下游模型評估或機器人模擬評審中的經驗回饋。

成熟的專案會把合成資料當作工程資產管理。每個資料集都應有負責人、版本、假設、品質檢查和生成目的。

公開參考

DataMesh Robotics 發布介紹了合成訓練資料、可執行工業數位孿生、任務目標、獎勵設定和機器人管線準備的公開方向。

GTC 2025 展示展示了 DataMesh 模擬數位孿生與 FactVerse、NVIDIA Omniverse 工作流的結合。

FactVerse 與 NVIDIA Omniverse 平台文章說明了 FactVerse 場景脈絡如何連接 Omniverse,用於模擬數位孿生工作流。