数据准备先于 AI 规模化
工业 AI 项目常见的问题,是模型能读文档,却无法稳定识别决策背后的资产、位置、信号、工单或审批规则。在真实运营中,数据基础和模型能力同样重要。
数据准备的核心,是为 AI Agent 和数字孪生建立可用的运营上下文:源系统、资产身份、空间结构、实时信号、告警历史、工单、巡检证据、SOP、文档、权限和结果记录。
Data Fusion Services 是 FactVerse 产品体系中准备这层基础的能力。它连接源系统,将字段映射到孪生实体,统一数据格式,计算指标,并让这些上下文可用于 FactVerse Twin Engine、FactVerse AI Agent、Inspector、看板和分析流程。
从运营工作流开始
第一个问题应该是运营问题:要改善哪一个决策或任务。
可行起点包括关键设备预测性维护、设施巡检路线、数据中心资产管理、热网运营、半导体厂务系统、仓储物流设备检查和数字化 SOP 执行。每个工作流都会决定哪些数据必须先接入,哪些数据可以后续再接。
| 工作流 | 最先需要的数据 |
|---|---|
| 预测性维护 | 资产层级、传感器趋势、告警、维护历史、巡检结果、工单结果 |
| 设施巡检 | 空间层级、资产清单、巡检点、检查表、照片、问题分类、关闭记录 |
| 数据中心运营 | 机房、机柜、设施设备、计量表、告警、能耗读数、维护记录、资产责任人 |
| HeatOps | 热源、换热站、计量表、温度、压力、流量、天气、调度日志、现场任务 |
| 半导体设施运营 | 公辅设备、Sub-fab 系统、告警、运行边界、工单、操作员备注 |
| 操作指导 | SOP、任务步骤、设备引用、安全说明、培训记录、审批要求 |
从工作流出发,可以让数据模型始终服务运营价值。
建立源系统清单
工业现场的数据通常分散在多个系统中。源系统清单需要说明有哪些系统、每个系统负责什么、如何访问、更新频率如何,以及由谁批准使用。
常见来源包括 SCADA、BMS、EMS、PLC、历史数据库、IoT 平台、MES、ERP、CMMS、EAM、GIS、BIM、计量表、电子表格、图纸、手册、SOP 仓库、巡检工具、培训系统和文档库。
每个来源都应记录:
- 负责人和业务用途
- 连接方式和访问边界
- 可用字段、点位、文档和记录
- 更新频率、延迟和历史保留时间
- 单位、时间戳、命名和质量问题
- 安全、隐私和审批要求
这张清单就是数据集成交付地图。
建立资产与空间身份
AI Agent 工作流需要稳定引用。泵、空调箱、UPS、换热器、阀门、塔吊、车辆、房间、产线或换热站,都应该拥有可以跨系统识别的身份。
FactVerse 和 Twin Engine 用这层身份连接空间、设备、系统、关系、文档、信号和工单。Data Fusion Services 将源字段和点位映射到这些实体,让每个信号都挂接到孪生中的正确对象。
好的身份设计应覆盖:
- 站点、建筑、楼层、分区、房间、产线、路线和服务区域
- 资产类别、资产 ID、显示名称、型号、位置和责任人
- 系统关系、上下游依赖和父子结构
- 源系统别名和点位命名规律
- 文档链接、SOP 链接、巡检点和工单引用
这层身份把原始数据转化为运营上下文。
准备时间序列与事件数据
连续运营依赖干净的信号。温度、振动、电流、压力、流量、能耗、阀门状态、告警状态和设备状态,需要稳定的单位、时间戳、采样规则和质量标记。
Data Fusion Services 可以帮助统一单位、对齐时间戳、处理缺失值、计算派生指标并标记质量问题。目标是让实时和历史信号足够可靠,可以支撑看板、AI 复核、维护分析和机器学习数据集。
团队应记录:
- 单位约定和转换规则
- 时区、时间戳来源和时钟漂移风险
- 采样频率和聚合规则
- 数据缺失、异常值、平线和传感器更换事件
- 告警等级、确认、复位和重复事件逻辑
- 计算指标及其公式
连接工单记录与 SOP 上下文
AI 建议要进入执行,就需要工单记录、巡检结果、问题分类、验收说明、照片、SOP、手册、培训记录和审批路径。
Inspector、Checklist 以及已连接的 CMMS 或 EAM 系统提供现场闭环。它们记录谁复核了发现、采取了什么动作、采集了什么证据,以及状态是否改善。
SOP 和文档上下文应该连接到资产和工作流。AI Agent 才能检索正确流程、总结相关历史、准备任务建议,并把人工复核保留在审批路径中。
让数据可用于机器学习
机器学习需要完整运营语境,原始传感器历史只是其中一部分。真正有价值的数据集包括信号、资产上下文、运行状态、人工判断、采取的动作和结果。
以预测性维护为例,模型需要知道信号来自哪个资产、现场是否处于正常运行状态、出现了哪些告警、后续产生了哪些工单、技术人员发现了什么,以及动作后状态是否改善。这些记录可以支持模型训练、重新训练、效果评估和建议质量调优。
数据管道应保留:
- 输入信号和特征
- 资产和位置上下文
- 运行状态和工艺条件
- 人工复核决策和被否决的建议
- 工单动作和完成证据
- 动作后的读数和结果标签
- 模型版本、建议版本和复核指标
这样机器学习才能和可验证运营连接起来。
治理与上线控制
数据准备也依赖治理。每个数据来源需要负责人,每个映射实体需要维护者,每个 AI 工作流需要访问、审批、变更管理和证据保留规则。
工业部署中,治理应覆盖数据血缘、网络安全边界、角色权限、模型复核、现场验收标准、变更历史、本地化和回退方案。这些控制能帮助团队在试点之后继续扩展,同时保持对数据基础的信任。
DataMesh 上线模式
- 选择工作流 - 选择一个责任清晰、结果可衡量的运营闭环。
- 盘点源系统 - 列出系统、点位、记录、文档、负责人、访问方式和数据质量风险。
- 建立身份模型 - 在 FactVerse 中定义空间、资产、系统、关系、别名和责任人。
- 映射并统一数据 - 使用 Data Fusion Services 连接来源,将字段绑定到孪生实体,统一单位、对齐时间戳并计算指标。
- 接入执行上下文 - 连接 Inspector、Checklist、CMMS 或 EAM 工作流、SOP、证据字段和审批规则。
- 准备 AI 复核 - 将可信上下文交给 FactVerse AI Agent,用于证据摘要、异常复核、建议草拟和人工批准。
- 捕捉结果 - 使用现场记录和动作后读数,持续改进数据质量、模型评估和扩展决策。
准备度检查清单
- 工作流是否有负责人和可衡量的运营结果
- 源系统、文档、点位和记录是否已按负责人完成盘点
- 资产和空间是否能在不同系统中保持一致映射
- 单位、时间戳、采样频率和数据质量问题是否已记录
- 工单、巡检、SOP、照片和验收记录是否已连接
- AI Agent 是否能用可追踪证据解释建议
- 人工复核决策和被否决建议是否可以保留
- 结果记录是否能支持模型训练、重新训练和评估
- 网络安全、访问控制、数据血缘和变更管理是否已定义
公开参考
Data Fusion Services 产品页介绍了 FactVerse 产品体系中的数据集成层。
FactVerse AI Agent 运营闭环指南说明了 AI Agent 建议如何进入人工复核的现场执行。
Yokogawa 与 DataMesh 预测性维护参考、NIO 智能工厂参考和 JTC 合作展示了工业数据、数字孪生上下文和运营工作流的公开案例。
