融合任务
融合任务用于把多个数据集中的记录进行匹配、合并、补齐、去重或关联,并保留可审阅的运行记录。它适合设备身份对齐、巡检记录与工单关联、多站点运营数据汇总、预测性维护特征准备,以及 FactVerse AI Agent 使用的数据集准备。
前置条件
创建任务前先确认:
- 输入数据集已存在,并且当前用户有访问权限;
- 每个输入来源有明确负责人;
- 关键字段、时间字段、身份字段和单位已经理解;
- 输出数据集名称、负责人和下游用途已明确;
- 匹配方式、冲突阈值和审阅责任已确认;
- 可能产生冲突或低置信结果时,审阅人已安排好。
工作流
打开数据融合
进入:
Data Integration > Data Fusion
页面会显示融合任务、模式、状态、输出数据集和运行入口。
融合模式
| 模式 | 适用情况 |
|---|---|
| Rule Matching | 有稳定资产 ID、时间窗口或已知关键字段,可以用确定性规则匹配。 |
| Semantic Matching | 名称、别名、描述或关系需要比较。 |
| LLM Assisted | 需要语言理解辅助,并且不确定结果会进入人工审阅。 |
稳定关键字段可用时,优先使用规则匹配。源系统名称、别名或描述差异较大时,再使用语义或 LLM 辅助方式。
大规模源数据融合
对于较大的运营数据集,支持的方法可以异步运行、分块读取源数据,并把输出直接写入目标数据集。merge_by_natural_key 这类方法适合这种方式,因为它通常要处理多来源资产、事件、故障或工单记录。
在界面中,它仍然表现为一次融合运行。运行期间任务可能处于 queued 或 running 状态;完成后在运行历史中查看总记录数、匹配数、冲突数、已写入行数和错误信息。
适用情况:
- 源表规模超过普通预览式执行;
- 输出需要进入受治理的数据集;
- 审阅人关注运行记录、冲突数量和交接状态;
- 任务会按计划重复运行,或在源数据刷新后重跑。
Counts-only handoff
部分融合方法使用摘要响应,平台则通过对应服务路径存储或发布受治理结果。
| 方法类型 | 正常交接方式 | 用户查看位置 |
|---|---|---|
| 数据集合并或补齐 | 输出行写入目标数据集,并记录运行总数和冲突。 | 输出数据集预览、画像、血缘和审阅队列。 |
| MDM 实体解析 | 候选实体、别名和模糊候选交给平台侧 MDM 持久化;运行记录 staged 和 persisted 数量。 | 主数据实体、跨源别名、人工审阅队列和运行指标。 |
| 故障事件融合 | 重复事件候选进入人工审阅;运行记录 persisted 和 skipped candidate 数量。 | 故障融合候选队列、审阅后事件分组和下游事件数据集。 |
集成设计应围绕受治理结果位置、分页审阅界面和运行指标展开。租户范围、审计行为、人工决策和下游刷新由对应平台服务统一负责。
源行过滤
有些来源包含超出当前融合任务范围的记录。融合方法可以在配置中使用 source_row_filters,让运行过程在匹配前只保留目标来源切片。
示例:
{
"source_row_filters": {
"APCM": {
"any": [
{ "field": "告警类型", "in": ["MMSG告警"] },
{ "field": "告警等级", "in": ["中高", "高"] }
]
}
}
}
过滤规则按来源标签匹配。没有命中过滤规则的来源会原样进入任务。any 表示任一条件命中即可保留,all 表示所有条件命中才保留;每个条件可以使用 in 或 not_in。
使用源行过滤前应完成:
- 记录每个过滤条件对应的业务口径;
- 抽样检查过滤前后的源数据;
- 对计划任务重新确认基线统计;
- 保留原始源数据,便于审计和后续复核。
部署环境可以在数据负责人批准前关闭 source_row_filters。环境设置未启用时,派发任务会忽略该配置。
已发布规则集与冲突字段
如果融合方法由已发布的 DFS 规则集驱动,在修改运行任务前应先查看当前规则集。规则集定义字段提取、匹配规则、幸存规则、置信度权重,以及工作流使用的 AI 辅助阈值。
冲突字段应反映真正影响业务判断的差异。受治理身份、资产类型、运行状态、严重度、批次上下文、设备状态、时间窗口、维护对象等结构化字段通常更适合作为冲突信号。较长的消息文本和源系统专用代码可以保留在证据记录中,方便审阅人员回溯,同时避免把文字差异放大成过多冲突。
创建融合任务
- 打开 Data Fusion。
- 选择 Create Fusion Task。
- 输入任务名称。
- 填写描述。
- 选择融合模式。
- 选择输入数据集。
- 在需要复用处理逻辑时选择方法。
- 设置输出数据集名称或输出数据集。
- 配置冲突阈值。
- 保存任务。
任务名称应描述业务输出,例如 巡检发现与维修记录匹配、设备别名对齐、预测性维护信号特征合并。
运行任务
从任务列表或详情页选择 Run。
执行过程中,任务可能处于 queued、running、completed、failed、cancelled 或 review 状态。
启动后检查:
- 状态是否开始推进。
- 运行历史是否生成。
- 总记录数、匹配数和冲突数是否符合预期。
- review 状态下是否存在待处理审阅项。
- 审阅完成后再把输出数据集交给下游使用。
异步执行与恢复
融合任务在后台执行。大规模流式运行会在派发后继续检查结果,保持用户操作响应及时。
如果服务重启或依赖异常导致旧运行停留在 RUNNING,调度器可以把超时运行标记为 failed,并解除任务阻塞。操作人员应先查看运行历史和错误信息,再根据源数据、方法配置或容量问题决定是否重试。
重试或取消
失败任务修复后使用重试。排队或运行中的任务如果输入或配置错误,可以取消。
重试前确认:
- 输入数据集存在并可访问;
- 输出数据集可写;
- 方法状态可用;
source_row_filters的来源标签和字段名仍然正确;- 上一次错误信息已经处理;
- 审阅队列中没有遗留的阻塞项。
输出数据集
完成后的输出数据集应作为受治理数据处理:
- 预览样本行;
- 检查字段画像;
- 明确数据负责人;
- 审阅完成后再验证数据集;
- 替换或弃用旧数据集前检查血缘和下游影响。
当融合输出使用受治理身份时,应在输出记录中写入稳定的 MDM 实体 ID。例如,可靠性工作流可以把归一化后的注册号、标签、序列号或维护对象 ID 通过 MDM 别名台账解析为实体 ID,并把该 ID 写入融合事件或可靠性记录。无法解析或存在歧义的记录应作为例外留给数据责任人审阅。
相关页面
| 继续阅读 | 适用场景 |
|---|---|
| DFS Pro 数据集 | 从连接器、导入、抽取或融合结果创建治理数据资产。 |
| 数据集生命周期 | 管理数据集草稿、验证、发布、版本、弃用和归档。 |
| 审阅队列 | 处理低置信度结果、冲突、拒绝行和需要人工确认的数据变更。 |
| 审计与指标 | 查看数据集、融合任务、审阅动作、同步运行和质量趋势。 |