数据进入决策时,治理就开始了
当一条信号、告警、仪表读数、工单、巡检记录、文档或计算指标开始影响运营决策时,工业数据治理就已经开始。
对于运营数字孪生来说,数据连接只是第一步。团队还需要知道数据来自哪里,描述哪台资产或哪个空间,使用什么单位和时间戳规则,谁负责映射,数值是否可靠,哪些 AI Agent 或看板正在使用它,以及上一次发布后发生了什么变化。
Data Fusion Services 在 FactVerse 产品体系中支撑这套运营纪律。它连接源系统,将数据映射到孪生实体,清洗并统一字段,计算指标,准备数据集市,并把实时上下文绑定到数字孪生中。围绕这些步骤建立治理,才能让接入的数据真正服务 FactVerse AI Agent、FactVerse Twin Engine、Inspector、看板、仿真和机器学习流程。
DFS 应该帮助治理什么
数据治理需要沿着数据从源系统到每个运营使用者的路径展开。
| 治理范围 | 实际问题 | 为什么重要 |
|---|---|---|
| 源系统责任 | 哪个系统拥有这个值,谁批准使用 | 避免数据被质疑时责任不清 |
| 访问边界 | 哪个网络、租户、站点或角色可以读取 | 保护敏感运营数据和客户专属信息 |
| 实体绑定 | 它描述哪台资产、哪个空间、系统、路线或工作流 | 把原始标签变成运营上下文 |
| 单位与时间戳 | 使用什么单位、时区、时钟、采样率和聚合规则 | 让趋势、告警和对比有意义 |
| 质量状态 | 数值是否缺失、过期、插值、越界或来自更换后的传感器 | 帮助 AI 和操作员判断证据强弱 |
| 计算逻辑 | 派生 KPI 或指标由什么公式产生 | 让分析、能耗和维护指标可复核 |
| 数据血缘 | 哪个连接器、映射、转换和发布版本产生了这个值 | 支撑排障和审计复核 |
| 使用者清单 | 哪些看板、AI 流程、报告或工单使用这条数据 | 在修改点位或公式前评估影响 |
这种治理不意味着每个点位都要走复杂委员会。关键是让会影响决策的数据具备清晰责任和可重复规则。
按运营身份治理
工业系统经常用不同方式描述同一个对象。一台泵在 SCADA 中可能有一个名称,在历史数据库中有另一种标签,在 CMMS 中有另一个资产 ID,在 BIM 中又有另一个标注,现场技师还可能使用习惯叫法。数据治理需要用稳定的运营身份把这些别名连接起来。
FactVerse 为空间、资产、系统、关系、文档、数据绑定和工作流提供共享上下文。Data Fusion Services 将源字段和点位映射到这个上下文,让每个值都绑定到正确的资产、位置和运营闭环。
良好的身份治理应覆盖:
- 园区、建筑、楼层、区域、房间、产线、路线和服务区域
- 资产类别、资产 ID、显示名称、型号、负责人和生命周期状态
- 上下游系统关系
- 源系统别名和命名模式
- 文档、SOP、巡检点和工单引用
- 受限空间、资产和记录的权限边界
当身份得到治理,AI Agent 检索证据时会减少歧义,现场团队也能理解建议为什么指向某个具体对象。
实时与历史数据的质量规则
时序值和事件会持续变化。数据管道需要操作团队和数据团队都能理解的质量规则。
常见规则包括:
- 缺失值处理
- 数据过期阈值
- 单位换算规则
- 时间戳和时区对齐
- 采样与聚合规则
- 异常值和长时间不变值识别
- 传感器更换记录
- 告警级别、确认和复位逻辑
- 计算指标公式与复核负责人
Data Fusion Services 可以帮助统一单位、对齐时间戳、识别质量问题并计算派生指标。治理层应记录使用了哪条规则,以及谁负责复核异常。
对于 AI Agent 工作流,质量状态本身就是证据的一部分。基于新鲜传感器数据、近期工单历史和已批准计算结果生成的建议,应与基于过期数值或临时手工上传数据的建议区分看待。
数据血缘与变更控制
工业数据经常悄悄变化。BMS 点位可能改名,仪表可能更换,历史数据库标签可能迁移到新网关,CMMS 字段可能因流程调整改变含义,KPI 公式也可能更新分母。
数字孪生画面可能仍然正确,但底层数据已经指向错误来源。治理要让这些变化在影响 AI 复核、看板、工单或外部报告之前变得可见。
实用的变更记录应包括:
- 受影响的源系统和连接器
- 改动的点位、字段、文档或公式
- 受影响的资产、空间、系统或工作流
- 受影响的下游使用者
- 复核人与批准状态
- 生效日期和回退方式
- 用于验证变更的证据
在受监管运营、数据中心、半导体厂务、生物制药、可持续发展证据和多站点项目中,这类变更控制尤其重要,因为同一个指标可能被多个报告和决策闭环复用。
权限、证据与审批
运营数据经常包含敏感信息:受限房间、客户专属布局、生产状态、设备健康、能耗曲线、维护发现和服务记录。数据从源系统进入数字孪生时,治理应保留访问边界。
有用的控制包括:
- 空间、资产、文档、看板和 AI 流程的角色权限
- 站点级和客户级数据边界
- AI 辅助建议的审批规则
- 巡检、工单和复核决策的证据保留
- 映射变更和数据导出的审计日志
- 临时上传与手工修正值的处理规则
Inspector 和已连接的工作系统可以记录谁复核了发现、采取了什么动作、采集了什么证据、结果是否改善。这些记录会成为下一轮 AI 复核或机器学习循环中的治理数据。
面向机器学习的数据治理
机器学习需要的不只是干净的传感器历史。它需要能解释物理现场发生了什么的数据。
以预测性维护为例,数据集应包含输入信号、资产身份、运行状态、告警上下文、技师复核、工单动作、完成证据和行动后的读数。能耗分析需要仪表、空间、设备组、运行计划、天气、公式和改善记录。仿真需要场景假设、资产版本、过程状态和已批准的数据范围。
数据治理应保留:
- 特征定义和源字段
- 训练前使用的质量过滤规则
- 由工单、巡检或结果产生的标签
- 模型版本和建议版本
- 人工复核决策与被拒绝的建议
- 用于评估的行动后结果
- 数据集刷新计划和审批负责人
这样团队才能在改进模型的同时,保留运营证据。
DataMesh 推进方式
- 选择一个决策闭环 - 从预测性维护、设施巡检、数据中心资产复核、能耗证据或数字 SOP 执行等工作流开始。
- 明确数据负责人 - 为源系统、资产身份、数据映射、质量规则、计算逻辑、权限和下游流程指定负责人。
- 映射运营身份 - 使用 FactVerse 对齐空间、资产、系统、关系、文档、工作流和别名。
- 连接并治理数据 - 使用 Data Fusion Services 连接源系统,将字段绑定到孪生实体,统一单位,对齐时间戳,计算指标并标记质量状态。
- 登记下游使用者 - 记录哪些看板、AI Agent 例程、Inspector 表单、报告和机器学习数据集使用这些数据。
- 发布前复核变更 - 在影响生产工作流之前验证点位变更、公式更新、连接器调整和权限变化。
- 采集结果 - 通过 Inspector、Checklist、CMMS、EAM 和客户系统采集现场证据、复核决策和行动后结果。
- 改进规则 - 用异常、映射失败、过期数据、被拒绝的 AI 建议和现场反馈改进治理模型。
治理检查清单
- 每个被治理的数据源是否有业务负责人和技术负责人
- 资产、空间、系统和工作流身份是否跨系统一致
- 源系统别名和点位命名规则是否记录清楚
- 单位、时间戳、采样率和质量规则是否可见
- 计算指标是否绑定公式、负责人和复核日期
- 从源连接器到孪生对象再到下游使用者的数据血缘是否保留
- 看板、AI Agent 工作流、报告和数据集是否登记为使用者
- 敏感空间、客户记录和受限文档是否受角色权限保护
- 现场证据和工单结果是否能用于复核和机器学习
- 点位改名、传感器更换、公式变化和绑定失效是否有变更路径
公开参考
Data Fusion Services 产品页介绍了 FactVerse 产品体系中的数据集成层。
数据准备指南说明如何为 AI Agent 和运营数字孪生工作流准备第一层数据基础。
运营数字孪生模型治理指南说明上线后如何保持模型、数据绑定和现场变化同步。
工业知识图谱指南说明语义关系如何连接资产、空间、系统、信号、文档和 AI Agent 推理。
