返回指南

数据融合、AI Agent 与运营数字孪生准备度

工业 AI Agent 与运营数字孪生的数据准备指南

这篇指南说明工业 AI Agent 和运营数字孪生上线前需要准备哪些数据:系统清单、资产身份、时间序列质量、工单记录、SOP 上下文和机器学习反馈数据。

工业 AI Agent 与运营数字孪生的数据准备指南

数据准备先于 AI 规模化

工业 AI 项目常见的问题,是模型能读文档,却无法稳定识别决策背后的资产、位置、信号、工单或审批规则。在真实运营中,数据基础和模型能力同样重要。

数据准备的核心,是为 AI Agent 和数字孪生建立可用的运营上下文:源系统、资产身份、空间结构、实时信号、告警历史、工单、巡检证据、SOP、文档、权限和结果记录。

Data Fusion Services 是 FactVerse 产品体系中准备这层基础的能力。它连接源系统,将字段映射到孪生实体,统一数据格式,计算指标,并让这些上下文可用于 FactVerse Twin EngineFactVerse AI AgentInspector、看板和分析流程。

从运营工作流开始

第一个问题应该是运营问题:要改善哪一个决策或任务。

可行起点包括关键设备预测性维护、设施巡检路线、数据中心资产管理、热网运营、半导体厂务系统、仓储物流设备检查和数字化 SOP 执行。每个工作流都会决定哪些数据必须先接入,哪些数据可以后续再接。

工作流最先需要的数据
预测性维护资产层级、传感器趋势、告警、维护历史、巡检结果、工单结果
设施巡检空间层级、资产清单、巡检点、检查表、照片、问题分类、关闭记录
数据中心运营机房、机柜、设施设备、计量表、告警、能耗读数、维护记录、资产责任人
HeatOps热源、换热站、计量表、温度、压力、流量、天气、调度日志、现场任务
半导体设施运营公辅设备、Sub-fab 系统、告警、运行边界、工单、操作员备注
操作指导SOP、任务步骤、设备引用、安全说明、培训记录、审批要求

从工作流出发,可以让数据模型始终服务运营价值。

建立源系统清单

工业现场的数据通常分散在多个系统中。源系统清单需要说明有哪些系统、每个系统负责什么、如何访问、更新频率如何,以及由谁批准使用。

常见来源包括 SCADA、BMS、EMS、PLC、历史数据库、IoT 平台、MES、ERP、CMMS、EAM、GIS、BIM、计量表、电子表格、图纸、手册、SOP 仓库、巡检工具、培训系统和文档库。

每个来源都应记录:

  • 负责人和业务用途
  • 连接方式和访问边界
  • 可用字段、点位、文档和记录
  • 更新频率、延迟和历史保留时间
  • 单位、时间戳、命名和质量问题
  • 安全、隐私和审批要求

这张清单就是数据集成交付地图。

建立资产与空间身份

AI Agent 工作流需要稳定引用。泵、空调箱、UPS、换热器、阀门、塔吊、车辆、房间、产线或换热站,都应该拥有可以跨系统识别的身份。

FactVerse 和 Twin Engine 用这层身份连接空间、设备、系统、关系、文档、信号和工单。Data Fusion Services 将源字段和点位映射到这些实体,让每个信号都挂接到孪生中的正确对象。

好的身份设计应覆盖:

  • 站点、建筑、楼层、分区、房间、产线、路线和服务区域
  • 资产类别、资产 ID、显示名称、型号、位置和责任人
  • 系统关系、上下游依赖和父子结构
  • 源系统别名和点位命名规律
  • 文档链接、SOP 链接、巡检点和工单引用

这层身份把原始数据转化为运营上下文。

准备时间序列与事件数据

连续运营依赖干净的信号。温度、振动、电流、压力、流量、能耗、阀门状态、告警状态和设备状态,需要稳定的单位、时间戳、采样规则和质量标记。

Data Fusion Services 可以帮助统一单位、对齐时间戳、处理缺失值、计算派生指标并标记质量问题。目标是让实时和历史信号足够可靠,可以支撑看板、AI 复核、维护分析和机器学习数据集。

团队应记录:

  • 单位约定和转换规则
  • 时区、时间戳来源和时钟漂移风险
  • 采样频率和聚合规则
  • 数据缺失、异常值、平线和传感器更换事件
  • 告警等级、确认、复位和重复事件逻辑
  • 计算指标及其公式

连接工单记录与 SOP 上下文

AI 建议要进入执行,就需要工单记录、巡检结果、问题分类、验收说明、照片、SOP、手册、培训记录和审批路径。

Inspector、Checklist 以及已连接的 CMMS 或 EAM 系统提供现场闭环。它们记录谁复核了发现、采取了什么动作、采集了什么证据,以及状态是否改善。

SOP 和文档上下文应该连接到资产和工作流。AI Agent 才能检索正确流程、总结相关历史、准备任务建议,并把人工复核保留在审批路径中。

让数据可用于机器学习

机器学习需要完整运营语境,原始传感器历史只是其中一部分。真正有价值的数据集包括信号、资产上下文、运行状态、人工判断、采取的动作和结果。

以预测性维护为例,模型需要知道信号来自哪个资产、现场是否处于正常运行状态、出现了哪些告警、后续产生了哪些工单、技术人员发现了什么,以及动作后状态是否改善。这些记录可以支持模型训练、重新训练、效果评估和建议质量调优。

数据管道应保留:

  • 输入信号和特征
  • 资产和位置上下文
  • 运行状态和工艺条件
  • 人工复核决策和被否决的建议
  • 工单动作和完成证据
  • 动作后的读数和结果标签
  • 模型版本、建议版本和复核指标

这样机器学习才能和可验证运营连接起来。

治理与上线控制

数据准备也依赖治理。每个数据来源需要负责人,每个映射实体需要维护者,每个 AI 工作流需要访问、审批、变更管理和证据保留规则。

工业部署中,治理应覆盖数据血缘、网络安全边界、角色权限、模型复核、现场验收标准、变更历史、本地化和回退方案。这些控制能帮助团队在试点之后继续扩展,同时保持对数据基础的信任。

DataMesh 上线模式

  1. 选择工作流 - 选择一个责任清晰、结果可衡量的运营闭环。
  2. 盘点源系统 - 列出系统、点位、记录、文档、负责人、访问方式和数据质量风险。
  3. 建立身份模型 - 在 FactVerse 中定义空间、资产、系统、关系、别名和责任人。
  4. 映射并统一数据 - 使用 Data Fusion Services 连接来源,将字段绑定到孪生实体,统一单位、对齐时间戳并计算指标。
  5. 接入执行上下文 - 连接 Inspector、Checklist、CMMS 或 EAM 工作流、SOP、证据字段和审批规则。
  6. 准备 AI 复核 - 将可信上下文交给 FactVerse AI Agent,用于证据摘要、异常复核、建议草拟和人工批准。
  7. 捕捉结果 - 使用现场记录和动作后读数,持续改进数据质量、模型评估和扩展决策。

准备度检查清单

  • 工作流是否有负责人和可衡量的运营结果
  • 源系统、文档、点位和记录是否已按负责人完成盘点
  • 资产和空间是否能在不同系统中保持一致映射
  • 单位、时间戳、采样频率和数据质量问题是否已记录
  • 工单、巡检、SOP、照片和验收记录是否已连接
  • AI Agent 是否能用可追踪证据解释建议
  • 人工复核决策和被否决建议是否可以保留
  • 结果记录是否能支持模型训练、重新训练和评估
  • 网络安全、访问控制、数据血缘和变更管理是否已定义

公开参考

Data Fusion Services 产品页介绍了 FactVerse 产品体系中的数据集成层。

FactVerse AI Agent 运营闭环指南说明了 AI Agent 建议如何进入人工复核的现场执行。

Yokogawa 与 DataMesh 预测性维护参考NIO 智能工厂参考JTC 合作展示了工业数据、数字孪生上下文和运营工作流的公开案例。