MDM 实体解析任务
实体解析任务是面向实施人员的 DFS 融合任务,用于准备 MDM 输出。它可以创建或更新主记录,确认确定性别名,并把不确定匹配送入人工审阅队列。
业务数据责任人通常只需要使用主数据实体和人工审阅队列。本页面用于实施配置、运行验证和交接。
能力边界
- DFS 和后端服务负责 MDM 持久化、租户范围、权限和审计。
- 解析器根据传入上下文计算实体、别名和模糊候选。
- 模糊匹配进入人工审阅队列,经审阅后再确认。
- 源系统仍然是业务记录的系统来源。
解析器是受治理的数据准备流程,人工决策仍然是身份流程的一部分。
准备工作
- 源数据集已经可用并有数据责任人。
- 目标实体类型已存在。
- 所需参考数据已准备好。
- 方法配置已审阅。
- 源字段包含稳定身份信号。
- 下游 owner 知道该任务是测试、试点还是生产用途。
输入
| 输入 | 用途 |
|---|---|
| 源数据集 | 可能描述同一对象的源记录。 |
| 实体类型 | 目标类型,例如设备、资产、零件、站点。 |
| 匹配键 | 可用于高置信匹配的确定性字段。 |
| 模糊字段 | 名称、描述、别名或属性,用于提出候选。 |
| 属性保留规则 | 源系统冲突时如何选择标准属性。 |
| 既有 MDM 上下文 | 当前实体、生效别名、已拒绝关系。 |
平台应组装 MDM 上下文并传给解析器。面向生产规模的运行中,解析器可以通过 staged handoff 交回计算出的实体、别名和模糊候选,并在运行记录中返回数量。后端再通过受治理的 MDM 服务完成最终写入。
这样租户范围、权限、审计行为、属性保留、时间有效别名和人工审阅队列创建都留在平台层,解析器专注于匹配计算。
如果业务域集成使用归一化别名,应把这些值随源系统别名一起传入上下文。归一化别名可以帮助查找候选,但命中多个实体时仍应进入人工审阅队列。
配置检查清单
在解析器面向完整数据集运行前,应和数据 owner 一起审阅配置:
| 配置项 | 需要回答的问题 |
|---|---|
| 实体类型 | 该类型是否代表具有稳定生命周期的真实运营对象? |
| 源优先级 | 名称、位置、类别、状态冲突时,哪个源优先? |
| 确定性匹配键 | 哪些字段可以直接确认匹配,无需进入人工审阅? |
| 模糊字段 | 哪些字段只适合提出候选,需要人工审阅? |
| 有效期 | 如何处理设备替换、退役资产和复用源 ID? |
| 已拒绝关系记忆 | 是否纳入既有拒绝记录,避免重复误报? |
| 归一化别名 | 哪个集成负责生成归一化键,需要哪些歧义检查? |
| 运行模式 | 本次运行是预览、试点,还是允许写入已批准的 MDM 输出? |
建议从小范围切片开始,包含干净记录、已知重复、退役对象和少量困难样本。只用干净记录测试会高估上线准备度。
输出
- 创建或更新的实体;
- 被确认的别名;
- 进入人工审阅队列的模糊候选;
- 运行指标与错误;
- 支撑决策的 lineage。
大规模运行中,集成应把运行指标、staged 数量、persisted 数量和人工审阅队列数量作为执行摘要。受治理结果应在主数据实体、跨源别名和人工审阅队列中查看。
普通数据集行需要时可通过单独的数据工作流发布。MDM 输出是身份层;融合数据集、报表、Inspector 工作流或 AI Agent 工作流应消费审阅后的身份结果。
实施边界
规划实施时使用以下边界:
| 负责人 | 职责 |
|---|---|
| DFS Lite 与 DFS Pro | 提供源行、source contract、字段画像和数据集血缘。 |
| 解析器 | 比较记录、提出实体和别名、为模糊候选打分。 |
| 后端 MDM 服务 | 持久化实体、别名、模糊候选、审计记录和时间有效别名变更。 |
| 人工审阅工作流 | 批准或拒绝不确定候选,并记录负向决策。 |
| 下游工作流 | 消费已审阅 entity ID、别名、运行指标和交接说明。 |
重跑应保持幂等。一次重试应更新目标记录或队列项,而不是制造重复实体、重复别名或重复误报候选。
验证流程
审阅运行结果
每次运行后检查:
- 创建或更新的实体数量;
- 被确认的别名数量;
- 进入人工审阅队列的模糊候选数量;
- 被跳过或格式异常的记录;
- 任务错误;
- 人工审阅工作量是否可接受。
候选量过高通常说明匹配键、源数据质量或属性保留规则还需要调整。
| 指标 | 意义 |
|---|---|
| 确定性匹配率 | 观察多少记录可用稳定键匹配。 |
| 新实体比例 | 发现意外的实体膨胀。 |
| 模糊候选比例 | 预估生产人工审阅工作量。 |
| 已拒绝关系重复率 | 判断既有拒绝决策是否被复用。 |
| 缺失键数量 | 指向源映射或数据质量问题。 |
| 下游行变动 | 观察身份更新后多少融合记录、工单或事件发生变化。 |
每类结果都应抽样检查。总体指标健康时,也可能在某个资产类别或源系统中产生高影响错误。
端到端场景
典型实施路径会把 MDM 连接到 DFS 其他能力:
- 使用 DFS Lite 导入维护、BMS、巡检或表格中的资产记录。
- 归一化源字段,并映射必需的身份信号。
- 针对目标实体类型运行 MDM 解析任务。
- 确认确定性别名,并把不确定匹配送入人工审阅队列。
- 重新运行 DFS Pro 融合任务,把工单、读数、巡检和事件关联到主数据实体 ID。
- 将审阅后的数据集交给 Inspector 工作流、AI Agent 证据检索、BI 报表或其他运营应用。
交接内容应包含解析任务运行 ID 或任务名、源数据切片、实体类型、人工审阅决策数量、未关闭例外和下游刷新状态。
交接清单
- 任务名称和用途清楚。
- 目标实体类型正确。
- 输入数据集和源字段已记录。
- 匹配键和模糊字段已审阅。
- 人工审阅队列有 owner。
- 下游工作流知道输出是否可用。
- 已知限制和未解决身份问题已记录。
- 运行指标已附到交接记录。
- 后续源数据刷新时的重跑方式已经明确。
下一步
继续阅读 人工审阅队列。