為什麼工業合成資料需要數位孿生
真實機器人資料很有價值,工業現場的資料採集常常成本高、風險高、週期長,也難以重複。設施環境還存在大量長尾狀態:通道被臨時占用、托盤位置變化、櫃門開啟、光照變化、人員移動、班次流程變化,以及短時間出現的設備狀態。
合成資料可以讓團隊在可控環境中覆蓋更多變化。對於工業 Physical AI,資料應來自理解資產、幾何、營運規則、感測器位置、任務目標和流程狀態的場景。數位孿生為資料管線提供這層脈絡。
DataMesh Robotics 利用 DataMesh 產品棧準備工業場景、生成多模態訓練資料,並把輸出連接到機器人模擬與訓練工作流。真正有價值的是完整鏈路:可執行場景、任務定義、感測器配置、標籤生成、匯出、評估和治理。
工業場景的特殊性
工業機器人資料需要表達物件外觀之外的營運含義:
| 層級 | 資料管線需要什麼 |
|---|---|
| 資產身份 | 設備名稱、物件類型、模型版本,以及回到營運數位孿生的關聯 |
| 空間脈絡 | 區域、車道、通行空間、間距、坐標和安全區域 |
| 流程狀態 | 產線狀態、工位狀態、工作步驟、異常狀態和事件時序 |
| 感測器配置 | 相機、深度、LiDAR、機器人位姿、視場、標定、噪聲模型和採樣規則 |
| 物理屬性 | 質量、摩擦、關節、約束、材料行為和接觸假設 |
| 標籤與元資料 | 分割、邊界框、實例 ID、深度、姿態、軌跡、任務狀態和場景變數 |
| 評審記錄 | 資料集版本、場景版本、假設、生成配方、品質發現和審批備註 |
這樣的結構幫助機器人團隊理解資料集代表什麼,以及如何重現或調整。
DataMesh 工作流
- 建模環境 - 在 FactVerse 中構建工廠、設施、倉庫、工作單元或巡檢區域,並加入資產、區域、元資料和關係。
- 編排場景行為 - 使用 FactVerse Designer 定義布局方案、流程邏輯、物件運動、任務步驟、事件觸發和場景節奏。
- 準備模擬資產 - 對齊 CAD、BIM、3D、OpenUSD、材質、尺度、坐標系,以及需要更豐富模擬時的 SimReady 準備規則。
- 配置感測器與任務 - 定義相機、深度感測器、機器人視角、目標物件、任務目標、成功條件和約束。
- 生成帶標籤資料 - 生成 RGB、深度、分割、邊界框、實例 ID、姿態、軌跡、流程狀態和場景元資料。
- 匯出到訓練棧 - 將資料集和場景資產打包到機器人訓練、評估、Isaac Sim / Omniverse 工作流或企業工具鏈。
- 評審並迭代 - 跟蹤資料品質、場景覆蓋、標籤一致性、任務覆蓋和下游評估結果。
這個流程讓資料生成始終連接營運脈絡,資料集也更容易解釋、稽核和改進。
DataMesh 產品棧分工
FactVerse 是營運數位孿生基礎,保存場地結構、資產、關係、資料脈絡、權限和場景記錄。
FactVerse Twin Engine 提供可執行數位孿生運行時脈絡,覆蓋幾何、資料綁定、行為和互動狀態。
FactVerse Designer 是布局、流程邏輯、行為樹、任務步驟和場景方案的創作環境。
DataMesh Robotics 聚焦合成資料生成、標籤輸出、任務定義、獎勵設定和機器人管線準備。
FactVerse Adaptor for NVIDIA Omniverse 在團隊需要高保真渲染、感測器模擬、物理驗證或外部模擬工具時,把 FactVerse 場景連接到 OpenUSD 與 Omniverse 工作流。
Data Fusion Services 在場景需要設備狀態、警報、生產訊號或設施脈絡時,連接即時與歷史營運資料。
資料集規格清單
生成資料之前,先定義資料集約定:
- 目標機器人、感測器、模型類型或下游訓練棧。
- 環境範圍、場景版本、資產清單和坐標系。
- 任務範圍、目標物件、流程狀態和成功標準。
- 感測器配置、相機路徑、視角、標定和噪聲假設。
- 光照、材質、物件擺放、設備狀態、路線狀態和流程節奏的變化規則。
- 需要輸出的 RGB、深度、分割、邊界框、姿態、軌跡和場景元資料。
- 標籤一致性、類別覆蓋、空間精度和場景覆蓋等品質檢查。
- 匯出格式、命名規則、資料集版本和評審負責人。
這份規格連接模擬工程師、機器人團隊、資料團隊和營運負責人。
適合優先啟動的場景
- 感知資料集:為工業物件、設備、工具、托盤、標識、夾具和作業區域生成帶標籤圖像與深度資料。
- 巡檢工作流:圍繞資產、面板、儀表、管線、櫃體和難以接近的位置生成視角與標籤。
- 移動機器人場景:準備車道、障礙物、路線狀態、暫存區、對接點和變化中的設施條件。
- 操作與接觸任務:描述物件姿態、材料行為、抓取約束、接觸狀態和任務序列,支援模擬評審。
- 工廠與倉儲規劃:在實體試驗前組合布局方案、物料流、機器人路徑和營運約束。
第一個用例應具備清晰任務定義、受控環境範圍,以及與下游訓練或模擬團隊共同參與的評審閉環。
品質與治理指標
工業合成資料應透過工程檢查來評估:
- 目標區域、物件類別和流程狀態的場景覆蓋。
- 生成幀與場景版本之間的標籤一致性。
- 光照、擺放、遮擋、物件狀態和感測器位姿的變化覆蓋。
- 尺度、碰撞、接觸、路線狀態和時序的物理一致性。
- 在下游模擬器或訓練棧中的整合品質。
- 從資料集版本回溯到場景版本、生成配方和假設的可追蹤性。
- 下游模型評估或機器人模擬評審中的經驗回饋。
成熟的專案會把合成資料當作工程資產管理。每個資料集都應有負責人、版本、假設、品質檢查和生成目的。
公開參考
DataMesh Robotics 發布介紹了合成訓練資料、可執行工業數位孿生、任務目標、獎勵設定和機器人管線準備的公開方向。
GTC 2025 展示展示了 DataMesh 模擬數位孿生與 FactVerse、NVIDIA Omniverse 工作流的結合。
FactVerse 與 NVIDIA Omniverse 平台文章說明了 FactVerse 場景脈絡如何連接 Omniverse,用於模擬數位孿生工作流。
