部署工业 AI Agent 前需要准备哪些数据

应从源系统清单、资产与空间身份、有价值的时间序列信号、告警、工单、巡检记录、SOP、文档和现场审批规则开始。

数据准备为什么会影响运营数字孪生

数字孪生需要稳定的资产名称、关系、实时状态、单位、时间戳、工作记录和证据链接。只有这些上下文稳定后，AI 建议才能在真实运营语境中被复核。

Data Fusion Services 做什么

Data Fusion Services 连接源系统，将字段映射到孪生实体，统一单位和时间戳，准备计算指标，并让这些上下文进入 Twin Engine、Inspector、AI Agent、看板和分析流程。

选择一个责任清晰的工作流，例如某类设备的预测性维护、一条设施巡检路线、一个数据中心资产组或一组换热站。先连接验证该流程所需的数据，再扩展范围。

工业 AI Agent 与运营数字孪生的数据准备指南

数据准备先于 AI 规模化

工业 AI 项目常见的问题，是模型能读文档，却无法稳定识别决策背后的资产、位置、信号、工单或审批规则。在真实运营中，数据基础和模型能力同样重要。

数据准备的核心，是为 AI Agent 和数字孪生建立可用的运营上下文：源系统、资产身份、空间结构、实时信号、告警历史、工单、巡检证据、SOP、文档、权限和结果记录。

Data Fusion Services 是 FactVerse 产品体系中准备这层基础的能力。它连接源系统，将字段映射到孪生实体，统一数据格式，计算指标，并让这些上下文可用于 FactVerse Twin Engine、FactVerse AI Agent、Inspector、看板和分析流程。

从运营工作流开始

第一个问题应该是运营问题：要改善哪一个决策或任务。

可行起点包括关键设备预测性维护、设施巡检路线、数据中心资产管理、热网运营、半导体厂务系统、仓储物流设备检查和数字化 SOP 执行。每个工作流都会决定哪些数据必须先接入，哪些数据可以后续再接。

工作流	最先需要的数据
预测性维护	资产层级、传感器趋势、告警、维护历史、巡检结果、工单结果
设施巡检	空间层级、资产清单、巡检点、检查表、照片、问题分类、关闭记录
数据中心运营	机房、机柜、设施设备、计量表、告警、能耗读数、维护记录、资产责任人
HeatOps	热源、换热站、计量表、温度、压力、流量、天气、调度日志、现场任务
半导体设施运营	公辅设备、Sub-fab 系统、告警、运行边界、工单、操作员备注
操作指导	SOP、任务步骤、设备引用、安全说明、培训记录、审批要求

从工作流出发，可以让数据模型始终服务运营价值。

建立源系统清单

工业现场的数据通常分散在多个系统中。源系统清单需要记录系统范围、职责、访问方式、更新频率和审批责任。

常见来源包括 SCADA、BMS、EMS、PLC、历史数据库、IoT 平台、MES、ERP、CMMS、EAM、GIS、BIM、计量表、电子表格、图纸、手册、SOP 仓库、巡检工具、培训系统和文档库。

每个来源都应记录：

负责人和业务用途
连接方式和访问边界
可用字段、点位、文档和记录
更新频率、延迟和历史保留时间
单位、时间戳、命名和质量问题
安全、隐私和审批要求

这张清单就是数据集成交付地图。

建立资产与空间身份

AI Agent 工作流需要稳定引用。泵、空调箱、UPS、换热器、阀门、塔吊、车辆、房间、产线或换热站，都应该拥有可以跨系统识别的身份。

FactVerse 和 Twin Engine 用这层身份连接空间、设备、系统、关系、文档、信号和工单。Data Fusion Services 将源字段和点位映射到这些实体，让每个信号都挂接到孪生中的正确对象。

好的身份设计应覆盖：

站点、建筑、楼层、分区、房间、产线、路线和服务区域
资产类别、资产 ID、显示名称、型号、位置和责任人
系统关系、上下游依赖和父子结构
源系统别名和点位命名规律
文档链接、SOP 链接、巡检点和工单引用

这层身份把原始数据转化为运营上下文。

准备时间序列与事件数据

连续运营依赖干净的信号。温度、振动、电流、压力、流量、能耗、阀门状态、告警状态和设备状态，需要稳定的单位、时间戳、采样规则和质量标记。

Data Fusion Services 可以帮助统一单位、对齐时间戳、处理缺失值、计算派生指标并标记质量问题。目标是让实时和历史信号足够可靠，可以支撑看板、AI 复核、维护分析和机器学习数据集。

团队应记录：

单位约定和转换规则
时区、时间戳来源和时钟漂移风险
采样频率和聚合规则
数据缺失、异常值、平线和传感器更换事件
告警等级、确认、复位和重复事件逻辑
计算指标及其公式

连接工单记录与 SOP 上下文

AI 建议要进入执行，就需要工单记录、巡检结果、问题分类、验收说明、照片、SOP、手册、培训记录和审批路径。

Inspector、Checklist 以及已连接的 CMMS 或 EAM 系统提供现场闭环。它们记录谁复核了发现、采取了什么动作、采集了什么证据，以及状态是否改善。

SOP 和文档上下文应该连接到资产和工作流。AI Agent 才能检索正确流程、总结相关历史、准备任务建议，并把人工复核保留在审批路径中。

让数据可用于机器学习

机器学习需要完整运营语境，原始传感器历史只是其中一部分。真正有价值的数据集包括信号、资产上下文、运行状态、人工判断、采取的动作和结果。

以预测性维护为例，模型需要知道信号来自哪个资产、现场是否处于正常运行状态、出现了哪些告警、后续产生了哪些工单、技术人员发现了什么，以及动作后状态是否改善。这些记录可以支持模型训练、重新训练、效果评估和建议质量调优。

数据管道应保留：

输入信号和特征
资产和位置上下文
运行状态和工艺条件
人工复核决策和被否决的建议
工单动作和完成证据
动作后的读数和结果标签
模型版本、建议版本和复核指标

这样机器学习才能和可验证运营连接起来。

治理与上线控制

数据准备也依赖治理。每个数据来源需要负责人，每个映射实体需要维护者，每个 AI 工作流需要访问、审批、变更管理和证据保留规则。

工业部署中，治理应覆盖数据血缘、网络安全边界、角色权限、模型复核、现场验收标准、变更历史、本地化和回退方案。这些控制能帮助团队在试点之后继续扩展，同时保持对数据基础的信任。

DataMesh 上线模式

选择工作流 - 选择一个责任清晰、结果可衡量的运营闭环。
盘点源系统 - 列出系统、点位、记录、文档、负责人、访问方式和数据质量风险。
建立身份模型 - 在 FactVerse 中定义空间、资产、系统、关系、别名和责任人。
映射并统一数据 - 使用 Data Fusion Services 连接来源，将字段绑定到孪生实体，统一单位、对齐时间戳并计算指标。
接入执行上下文 - 连接 Inspector、Checklist、CMMS 或 EAM 工作流、SOP、证据字段和审批规则。
准备 AI 复核 - 将可信上下文交给 FactVerse AI Agent，用于证据摘要、异常复核、建议草拟和人工批准。
捕捉结果 - 使用现场记录和动作后读数，持续改进数据质量、模型评估和扩展决策。

准备度检查清单

工作流是否有负责人和可衡量的运营结果
源系统、文档、点位和记录是否已按负责人完成盘点
资产和空间是否能在不同系统中保持一致映射
单位、时间戳、采样频率和数据质量问题是否已记录
工单、巡检、SOP、照片和验收记录是否已连接
AI Agent 是否能用可追踪证据解释建议
人工复核决策和被否决建议是否可以保留
结果记录是否能支持模型训练、重新训练和评估
网络安全、访问控制、数据血缘和变更管理是否已定义

公开参考

Data Fusion Services 产品页介绍了 FactVerse 产品体系中的数据集成层。

FactVerse AI Agent 运营闭环指南介绍 AI Agent 建议进入人工复核和现场执行的闭环方式。

Yokogawa 与 DataMesh 预测性维护参考、NIO 智能工厂参考和 JTC 合作展示了工业数据、数字孪生上下文和运营工作流的公开案例。