返回指南

Data Fusion、数据治理与 AI 就绪运营

面向运营数字孪生与 AI Agent 的工业数据治理

介绍如何围绕运营数字孪生、AI Agent、机器学习数据集和 Data Fusion Services 建立工业数据治理:责任、质量、血缘、权限、变更控制与现场证据。

面向运营数字孪生与 AI Agent 的工业数据治理

数据进入决策时,治理就开始了

当一条信号、告警、仪表读数、工单、巡检记录、文档或计算指标开始影响运营决策时,工业数据治理就已经开始。

对于运营数字孪生来说,数据连接只是第一步。团队还需要知道数据来自哪里,描述哪台资产或哪个空间,使用什么单位和时间戳规则,谁负责映射,数值是否可靠,哪些 AI Agent 或看板正在使用它,以及上一次发布后发生了什么变化。

Data Fusion Services 在 FactVerse 产品体系中支撑这套运营纪律。它连接源系统,将数据映射到孪生实体,清洗并统一字段,计算指标,准备数据集市,并把实时上下文绑定到数字孪生中。围绕这些步骤建立治理,才能让接入的数据真正服务 FactVerse AI AgentFactVerse Twin EngineInspector、看板、仿真和机器学习流程。

DFS 应该帮助治理什么

数据治理需要沿着数据从源系统到每个运营使用者的路径展开。

治理范围实际问题为什么重要
源系统责任哪个系统拥有这个值,谁批准使用避免数据被质疑时责任不清
访问边界哪个网络、租户、站点或角色可以读取保护敏感运营数据和客户专属信息
实体绑定它描述哪台资产、哪个空间、系统、路线或工作流把原始标签变成运营上下文
单位与时间戳使用什么单位、时区、时钟、采样率和聚合规则让趋势、告警和对比有意义
质量状态数值是否缺失、过期、插值、越界或来自更换后的传感器帮助 AI 和操作员判断证据强弱
计算逻辑派生 KPI 或指标由什么公式产生让分析、能耗和维护指标可复核
数据血缘哪个连接器、映射、转换和发布版本产生了这个值支撑排障和审计复核
使用者清单哪些看板、AI 流程、报告或工单使用这条数据在修改点位或公式前评估影响

这种治理不意味着每个点位都要走复杂委员会。关键是让会影响决策的数据具备清晰责任和可重复规则。

按运营身份治理

工业系统经常用不同方式描述同一个对象。一台泵在 SCADA 中可能有一个名称,在历史数据库中有另一种标签,在 CMMS 中有另一个资产 ID,在 BIM 中又有另一个标注,现场技师还可能使用习惯叫法。数据治理需要用稳定的运营身份把这些别名连接起来。

FactVerse 为空间、资产、系统、关系、文档、数据绑定和工作流提供共享上下文。Data Fusion Services 将源字段和点位映射到这个上下文,让每个值都绑定到正确的资产、位置和运营闭环。

良好的身份治理应覆盖:

  • 园区、建筑、楼层、区域、房间、产线、路线和服务区域
  • 资产类别、资产 ID、显示名称、型号、负责人和生命周期状态
  • 上下游系统关系
  • 源系统别名和命名模式
  • 文档、SOP、巡检点和工单引用
  • 受限空间、资产和记录的权限边界

当身份得到治理,AI Agent 检索证据时会减少歧义,现场团队也能理解建议为什么指向某个具体对象。

实时与历史数据的质量规则

时序值和事件会持续变化。数据管道需要操作团队和数据团队都能理解的质量规则。

常见规则包括:

  • 缺失值处理
  • 数据过期阈值
  • 单位换算规则
  • 时间戳和时区对齐
  • 采样与聚合规则
  • 异常值和长时间不变值识别
  • 传感器更换记录
  • 告警级别、确认和复位逻辑
  • 计算指标公式与复核负责人

Data Fusion Services 可以帮助统一单位、对齐时间戳、识别质量问题并计算派生指标。治理层应记录使用了哪条规则,以及谁负责复核异常。

对于 AI Agent 工作流,质量状态本身就是证据的一部分。基于新鲜传感器数据、近期工单历史和已批准计算结果生成的建议,应与基于过期数值或临时手工上传数据的建议区分看待。

数据血缘与变更控制

工业数据经常悄悄变化。BMS 点位可能改名,仪表可能更换,历史数据库标签可能迁移到新网关,CMMS 字段可能因流程调整改变含义,KPI 公式也可能更新分母。

数字孪生画面可能仍然正确,但底层数据已经指向错误来源。治理要让这些变化在影响 AI 复核、看板、工单或外部报告之前变得可见。

实用的变更记录应包括:

  • 受影响的源系统和连接器
  • 改动的点位、字段、文档或公式
  • 受影响的资产、空间、系统或工作流
  • 受影响的下游使用者
  • 复核人与批准状态
  • 生效日期和回退方式
  • 用于验证变更的证据

在受监管运营、数据中心、半导体厂务、生物制药、可持续发展证据和多站点项目中,这类变更控制尤其重要,因为同一个指标可能被多个报告和决策闭环复用。

权限、证据与审批

运营数据经常包含敏感信息:受限房间、客户专属布局、生产状态、设备健康、能耗曲线、维护发现和服务记录。数据从源系统进入数字孪生时,治理应保留访问边界。

有用的控制包括:

  • 空间、资产、文档、看板和 AI 流程的角色权限
  • 站点级和客户级数据边界
  • AI 辅助建议的审批规则
  • 巡检、工单和复核决策的证据保留
  • 映射变更和数据导出的审计日志
  • 临时上传与手工修正值的处理规则

Inspector 和已连接的工作系统可以记录谁复核了发现、采取了什么动作、采集了什么证据、结果是否改善。这些记录会成为下一轮 AI 复核或机器学习循环中的治理数据。

面向机器学习的数据治理

机器学习需要的不只是干净的传感器历史。它需要能解释物理现场发生了什么的数据。

以预测性维护为例,数据集应包含输入信号、资产身份、运行状态、告警上下文、技师复核、工单动作、完成证据和行动后的读数。能耗分析需要仪表、空间、设备组、运行计划、天气、公式和改善记录。仿真需要场景假设、资产版本、过程状态和已批准的数据范围。

数据治理应保留:

  • 特征定义和源字段
  • 训练前使用的质量过滤规则
  • 由工单、巡检或结果产生的标签
  • 模型版本和建议版本
  • 人工复核决策与被拒绝的建议
  • 用于评估的行动后结果
  • 数据集刷新计划和审批负责人

这样团队才能在改进模型的同时,保留运营证据。

DataMesh 推进方式

  1. 选择一个决策闭环 - 从预测性维护、设施巡检、数据中心资产复核、能耗证据或数字 SOP 执行等工作流开始。
  2. 明确数据负责人 - 为源系统、资产身份、数据映射、质量规则、计算逻辑、权限和下游流程指定负责人。
  3. 映射运营身份 - 使用 FactVerse 对齐空间、资产、系统、关系、文档、工作流和别名。
  4. 连接并治理数据 - 使用 Data Fusion Services 连接源系统,将字段绑定到孪生实体,统一单位,对齐时间戳,计算指标并标记质量状态。
  5. 登记下游使用者 - 记录哪些看板、AI Agent 例程、Inspector 表单、报告和机器学习数据集使用这些数据。
  6. 发布前复核变更 - 在影响生产工作流之前验证点位变更、公式更新、连接器调整和权限变化。
  7. 采集结果 - 通过 Inspector、Checklist、CMMS、EAM 和客户系统采集现场证据、复核决策和行动后结果。
  8. 改进规则 - 用异常、映射失败、过期数据、被拒绝的 AI 建议和现场反馈改进治理模型。

治理检查清单

  • 每个被治理的数据源是否有业务负责人和技术负责人
  • 资产、空间、系统和工作流身份是否跨系统一致
  • 源系统别名和点位命名规则是否记录清楚
  • 单位、时间戳、采样率和质量规则是否可见
  • 计算指标是否绑定公式、负责人和复核日期
  • 从源连接器到孪生对象再到下游使用者的数据血缘是否保留
  • 看板、AI Agent 工作流、报告和数据集是否登记为使用者
  • 敏感空间、客户记录和受限文档是否受角色权限保护
  • 现场证据和工单结果是否能用于复核和机器学习
  • 点位改名、传感器更换、公式变化和绑定失效是否有变更路径

公开参考

Data Fusion Services 产品页介绍了 FactVerse 产品体系中的数据集成层。

数据准备指南说明如何为 AI Agent 和运营数字孪生工作流准备第一层数据基础。

运营数字孪生模型治理指南说明上线后如何保持模型、数据绑定和现场变化同步。

工业知识图谱指南说明语义关系如何连接资产、空间、系统、信号、文档和 AI Agent 推理。