跳到主要内容

融合任务

融合任务用于把多个数据集中的记录进行匹配、合并、补齐、去重或关联,并保留可审阅的运行记录。它适合设备身份对齐、巡检记录与工单关联、多站点运营数据汇总、预测性维护特征准备,以及 FactVerse AI Agent 使用的数据集准备。

前置条件

创建任务前先确认:

  • 输入数据集已存在,并且当前用户有访问权限;
  • 每个输入来源有明确负责人;
  • 关键字段、时间字段、身份字段和单位已经理解;
  • 输出数据集名称、负责人和下游用途已明确;
  • 匹配方式、冲突阈值和审阅责任已确认;
  • 可能产生冲突或低置信结果时,审阅人已安排好。

工作流

打开数据融合

进入:

Data Integration > Data Fusion

页面会显示融合任务、模式、状态、输出数据集和运行入口。

融合模式

模式适用情况
Rule Matching有稳定资产 ID、时间窗口或已知关键字段,可以用确定性规则匹配。
Semantic Matching名称、别名、描述或关系需要比较。
LLM Assisted需要语言理解辅助,并且不确定结果会进入人工审阅。

稳定关键字段可用时,优先使用规则匹配。源系统名称、别名或描述差异较大时,再使用语义或 LLM 辅助方式。

大规模源数据融合

对于较大的运营数据集,支持的方法可以异步运行、分块读取源数据,并把输出直接写入目标数据集。merge_by_natural_key 这类方法适合这种方式,因为它通常要处理多来源资产、事件、故障或工单记录。

在界面中,它仍然表现为一次融合运行。运行期间任务可能处于 queued 或 running 状态;完成后在运行历史中查看总记录数、匹配数、冲突数、已写入行数和错误信息。

适用情况:

  • 源表规模超过普通预览式执行;
  • 输出需要进入受治理的数据集;
  • 审阅人关注运行记录、冲突数量和交接状态;
  • 任务会按计划重复运行,或在源数据刷新后重跑。

Counts-only handoff

部分融合方法使用摘要响应,平台则通过对应服务路径存储或发布受治理结果。

方法类型正常交接方式用户查看位置
数据集合并或补齐输出行写入目标数据集,并记录运行总数和冲突。输出数据集预览、画像、血缘和审阅队列。
MDM 实体解析候选实体、别名和模糊候选交给平台侧 MDM 持久化;运行记录 staged 和 persisted 数量。主数据实体、跨源别名、人工审阅队列和运行指标。
故障事件融合重复事件候选进入人工审阅;运行记录 persisted 和 skipped candidate 数量。故障融合候选队列、审阅后事件分组和下游事件数据集。

集成设计应围绕受治理结果位置、分页审阅界面和运行指标展开。租户范围、审计行为、人工决策和下游刷新由对应平台服务统一负责。

源行过滤

有些来源包含超出当前融合任务范围的记录。融合方法可以在配置中使用 source_row_filters,让运行过程在匹配前只保留目标来源切片。

示例:

{
"source_row_filters": {
"APCM": {
"any": [
{ "field": "告警类型", "in": ["MMSG告警"] },
{ "field": "告警等级", "in": ["中高", "高"] }
]
}
}
}

过滤规则按来源标签匹配。没有命中过滤规则的来源会原样进入任务。any 表示任一条件命中即可保留,all 表示所有条件命中才保留;每个条件可以使用 innot_in

使用源行过滤前应完成:

  • 记录每个过滤条件对应的业务口径;
  • 抽样检查过滤前后的源数据;
  • 对计划任务重新确认基线统计;
  • 保留原始源数据,便于审计和后续复核。

部署环境可以在数据负责人批准前关闭 source_row_filters。环境设置未启用时,派发任务会忽略该配置。

已发布规则集与冲突字段

如果融合方法由已发布的 DFS 规则集驱动,在修改运行任务前应先查看当前规则集。规则集定义字段提取、匹配规则、幸存规则、置信度权重,以及工作流使用的 AI 辅助阈值。

冲突字段应反映真正影响业务判断的差异。受治理身份、资产类型、运行状态、严重度、批次上下文、设备状态、时间窗口、维护对象等结构化字段通常更适合作为冲突信号。较长的消息文本和源系统专用代码可以保留在证据记录中,方便审阅人员回溯,同时避免把文字差异放大成过多冲突。

创建融合任务

  1. 打开 Data Fusion。
  2. 选择 Create Fusion Task
  3. 输入任务名称。
  4. 填写描述。
  5. 选择融合模式。
  6. 选择输入数据集。
  7. 在需要复用处理逻辑时选择方法。
  8. 设置输出数据集名称或输出数据集。
  9. 配置冲突阈值。
  10. 保存任务。

任务名称应描述业务输出,例如 巡检发现与维修记录匹配设备别名对齐预测性维护信号特征合并

运行任务

从任务列表或详情页选择 Run

执行过程中,任务可能处于 queued、running、completed、failed、cancelled 或 review 状态。

启动后检查:

  1. 状态是否开始推进。
  2. 运行历史是否生成。
  3. 总记录数、匹配数和冲突数是否符合预期。
  4. review 状态下是否存在待处理审阅项。
  5. 审阅完成后再把输出数据集交给下游使用。

异步执行与恢复

融合任务在后台执行。大规模流式运行会在派发后继续检查结果,保持用户操作响应及时。

如果服务重启或依赖异常导致旧运行停留在 RUNNING,调度器可以把超时运行标记为 failed,并解除任务阻塞。操作人员应先查看运行历史和错误信息,再根据源数据、方法配置或容量问题决定是否重试。

重试或取消

失败任务修复后使用重试。排队或运行中的任务如果输入或配置错误,可以取消。

重试前确认:

  • 输入数据集存在并可访问;
  • 输出数据集可写;
  • 方法状态可用;
  • source_row_filters 的来源标签和字段名仍然正确;
  • 上一次错误信息已经处理;
  • 审阅队列中没有遗留的阻塞项。

输出数据集

完成后的输出数据集应作为受治理数据处理:

  • 预览样本行;
  • 检查字段画像;
  • 明确数据负责人;
  • 审阅完成后再验证数据集;
  • 替换或弃用旧数据集前检查血缘和下游影响。

当融合输出使用受治理身份时,应在输出记录中写入稳定的 MDM 实体 ID。例如,可靠性工作流可以把归一化后的注册号、标签、序列号或维护对象 ID 通过 MDM 别名台账解析为实体 ID,并把该 ID 写入融合事件或可靠性记录。无法解析或存在歧义的记录应作为例外留给数据责任人审阅。

相关页面

继续阅读适用场景
DFS Pro 数据集从连接器、导入、抽取或融合结果创建治理数据资产。
数据集生命周期管理数据集草稿、验证、发布、版本、弃用和归档。
审阅队列处理低置信度结果、冲突、拒绝行和需要人工确认的数据变更。
审计与指标查看数据集、融合任务、审阅动作、同步运行和质量趋势。