跳到主要内容

MDM 实体解析任务

实体解析任务是面向实施人员的 DFS 融合任务,用于准备 MDM 输出。它可以创建或更新 golden records,确认 deterministic aliases,并把不确定匹配送入 steward queue。

业务 steward 通常只需要使用 Master Entities 和 Steward Queue。本页面用于实施配置、运行验证和交接。

能力边界

  • DFS 和后端服务负责 MDM 持久化、tenant scope、权限和审计。
  • 解析器根据传入上下文计算实体、别名和模糊候选。
  • 模糊匹配进入 steward queue,经审阅后再确认。
  • 源系统仍然是业务记录的系统来源。

Resolver 是受治理的数据准备流程,steward 决策仍然是身份流程的一部分。

准备工作

  • 源数据集已经可用并有 steward。
  • 目标 entity type 已存在。
  • 所需 reference data 已准备好。
  • method configuration 已审阅。
  • 源字段包含稳定身份信号。
  • 下游 owner 知道该任务是测试、试点还是生产用途。

输入

输入用途
Source datasets可能描述同一对象的源记录。
Entity type目标类型,例如 device、asset、part、station。
Match keys高置信度 deterministic 匹配字段。
Fuzzy fields名称、描述、别名或属性,用于提出候选。
Survivorship rule源系统冲突时如何选择 canonical 属性。
Existing MDM context当前实体、active aliases、rejected pairs。

配置检查清单

在 resolver 面向完整数据集运行前,应和数据 owner 一起审阅配置:

配置项需要回答的问题
Entity type该类型是否代表具有稳定生命周期的真实运营对象?
Source priority名称、位置、类别、状态冲突时,哪个源优先?
Deterministic keys哪些字段可以直接确认匹配,无需进入 steward review?
Fuzzy fields哪些字段只适合提出候选,需要人工审阅?
Validity period如何处理设备替换、退役资产和复用 source ID?
Rejected-pair memory是否纳入既有 steward 拒绝记录,避免重复误报?
Run mode本次运行是 preview、pilot,还是允许写入 approved MDM output?

建议从小范围切片开始,包含干净记录、已知重复、退役对象和少量困难样本。只用干净记录测试会高估上线准备度。

输出

  • 创建或更新的 entities;
  • 被确认的 aliases;
  • 进入 steward queue 的 fuzzy candidates;
  • run metrics 与错误;
  • 支撑决策的 lineage。

当任务返回 MDM output 时,应把该输出作为受治理的身份结果。普通 dataset rows 需要时可通过单独的数据工作流发布。

验证流程

审阅运行结果

每次运行后检查:

  • 创建或更新的 entity 数量;
  • 被确认的 alias 数量;
  • 进入 steward queue 的 fuzzy candidate 数量;
  • 被跳过或格式异常的记录;
  • task errors;
  • steward 工作量是否可接受。

候选量过高通常说明 match keys、源数据质量或 survivorship rules 还需要调整。

指标意义
Deterministic match rate观察多少记录可用稳定 key 匹配。
New entity rate发现意外的实体膨胀。
Fuzzy candidate rate预估生产 steward 工作量。
Rejected-pair repeat rate判断既有拒绝决策是否被复用。
Missing-key count指向源映射或数据质量问题。
Downstream row movement观察身份更新后多少融合记录、工单或事件发生变化。

每类结果都应抽样检查。总体指标健康时,也可能在某个资产类别或源系统中产生高影响错误。

端到端场景

典型实施路径会把 MDM 连接到 DFS 其他能力:

  1. 使用 DFS Lite 导入维护、BMS、巡检或表格中的资产记录。
  2. 归一化源字段,并映射必需的身份信号。
  3. 针对目标 entity type 运行 MDM resolver task。
  4. 确认 deterministic aliases,并把不确定匹配送入 Steward Queue。
  5. 重新运行 DFS Pro fusion task,把工单、读数、巡检和事件关联到 master entity ID。
  6. 将审阅后的数据集交给 Inspector 工作流、AI Agent 证据检索、BI 报表或其他运营应用。

交接内容应包含 resolver run ID 或 task name、source slice、entity type、steward decision counts、open exceptions 和 downstream refresh status。

交接清单

  • 任务名称和用途清楚。
  • 目标 entity type 正确。
  • 输入数据集和源字段已记录。
  • match keys 和 fuzzy fields 已审阅。
  • steward queue 有 owner。
  • 下游工作流知道输出是否可用。
  • 已知限制和未解决身份问题已记录。
  • 运行指标已附到交接记录。
  • 后续源数据刷新时的重跑方式已经明确。

下一步

继续阅读 Steward Queue