MDM 实体解析任务
实体解析任务是面向实施人员的 DFS 融合任务,用于准备 MDM 输出。它可以创建或更新 golden records,确认 deterministic aliases,并把不确定匹配送入 steward queue。
业务 steward 通常只需要使用 Master Entities 和 Steward Queue。本页面用于实施配置、运行验证和交接。
能力边界
- DFS 和后端服务负责 MDM 持久化、tenant scope、权限和审计。
- 解析器根据传入上下文计算实体、别名和模糊候选。
- 模糊匹配进入 steward queue,经审阅后再确认。
- 源系统仍然是业务记录的系统来源。
Resolver 是受治理的数据准备流程,steward 决策仍然是身份流程的一部分。
准备工作
- 源数据集已经可用并有 steward。
- 目标 entity type 已存在。
- 所需 reference data 已准备好。
- method configuration 已审阅。
- 源字段包含稳定身份信号。
- 下游 owner 知道该任务是测试、试点还是生产用途。
输入
| 输入 | 用途 |
|---|---|
| Source datasets | 可能描述同一对象的源记录。 |
| Entity type | 目标类型,例如 device、asset、part、station。 |
| Match keys | 高置信度 deterministic 匹配字段。 |
| Fuzzy fields | 名称、描述、别名或属性,用于提出候选。 |
| Survivorship rule | 源系统冲突时如何选择 canonical 属性。 |
| Existing MDM context | 当前实体、active aliases、rejected pairs。 |
配置检查清单
在 resolver 面向完整数据集运行前,应和数据 owner 一起审阅配置:
| 配置项 | 需要回答的问题 |
|---|---|
| Entity type | 该类型是否代表具有稳定生命周期的真实运营对象? |
| Source priority | 名称、位置、类别、状态冲突时,哪个源优先? |
| Deterministic keys | 哪些字段可以直接确认匹配,无需进入 steward review? |
| Fuzzy fields | 哪些字段只适合提出候选,需要人工审阅? |
| Validity period | 如何处理设备替换、退役资产和复用 source ID? |
| Rejected-pair memory | 是否纳入既有 steward 拒绝记录,避免重复误报? |
| Run mode | 本次运行是 preview、pilot,还是允许写入 approved MDM output? |
建议从小范围切片开始,包含干净记录、已知重复、退役对象和少量困难样本。只用干净记录测试会高估上线准备度。
输出
- 创建或更新的 entities;
- 被确认的 aliases;
- 进入 steward queue 的 fuzzy candidates;
- run metrics 与错误;
- 支撑决策的 lineage。
当任务返回 MDM output 时,应把该输出作为受治理的身份结果。普通 dataset rows 需要时可通过单独的数据工作流发布。
验证流程
审阅运行结果
每次运行后检查:
- 创建或更新的 entity 数量;
- 被确认的 alias 数量;
- 进入 steward queue 的 fuzzy candidate 数量;
- 被跳过或格式异常的记录;
- task errors;
- steward 工作量是否可接受。
候选量过高通常说明 match keys、源数据质量或 survivorship rules 还需要调整。
| 指标 | 意义 |
|---|---|
| Deterministic match rate | 观察多少记录可用稳定 key 匹配。 |
| New entity rate | 发现意外的实体膨胀。 |
| Fuzzy candidate rate | 预估生产 steward 工作量。 |
| Rejected-pair repeat rate | 判断既有拒绝决策是否被复用。 |
| Missing-key count | 指向源映射或数据质量问题。 |
| Downstream row movement | 观察身份更新后多少融合记录、工单或事件发生变化。 |
每类结果都应抽样检查。总体指标健康时,也可能在某个资产类别或源系统中产生高影响错误。
端到端场景
典型实施路径会把 MDM 连接到 DFS 其他能力:
- 使用 DFS Lite 导入维护、BMS、巡检或表格中的资产记录。
- 归一化源字段,并映射必需的身份信号。
- 针对目标 entity type 运行 MDM resolver task。
- 确认 deterministic aliases,并把不确定匹配送入 Steward Queue。
- 重新运行 DFS Pro fusion task,把工单、读数、巡检和事件关联到 master entity ID。
- 将审阅后的数据集交给 Inspector 工作流、AI Agent 证据检索、BI 报表或其他运营应用。
交接内容应包含 resolver run ID 或 task name、source slice、entity type、steward decision counts、open exceptions 和 downstream refresh status。
交接清单
- 任务名称和用途清楚。
- 目标 entity type 正确。
- 输入数据集和源字段已记录。
- match keys 和 fuzzy fields 已审阅。
- steward queue 有 owner。
- 下游工作流知道输出是否可用。
- 已知限制和未解决身份问题已记录。
- 运行指标已附到交接记录。
- 后续源数据刷新时的重跑方式已经明确。
下一步
继续阅读 Steward Queue。