融合任務
融合任務用於把多個資料集中的記錄進行匹配、合併、補齊、去重或關聯,並保留可審閱的執行記錄。它適合設備身分對齊、巡檢記錄與工單關聯、多站點營運資料彙總、預測性維護特徵準備,以及 FactVerse AI Agent 使用的資料集準備。
前置條件
建立任務前先確認:
- 輸入資料集已存在,且目前使用者有存取權限;
- 每個輸入來源有明確負責人;
- key fields、timestamp fields、identity fields 和單位已理解;
- 輸出資料集名稱、負責人和下游用途已明確;
- 匹配方式、衝突閾值和審閱責任已確認;
- 可能產生衝突或低信心結果時,審閱人已安排好。
工作流
開啟資料融合
進入:
Data Integration > Data Fusion
頁面會顯示融合任務、模式、狀態、輸出資料集和執行入口。
融合模式
| 模式 | 適用情況 |
|---|---|
| Rule Matching | 有穩定資產 ID、時間窗口或已知關鍵欄位,可以用確定性規則匹配。 |
| Semantic Matching | 名稱、別名、描述或關係需要比較。 |
| LLM Assisted | 需要語言理解輔助,且不確定結果會進入人工審閱。 |
穩定關鍵欄位可用時,優先使用規則匹配。來源系統名稱、別名或描述差異較大時,再使用語義或 LLM 輔助方式。
大規模來源資料融合
對於較大的營運資料集,支援的方法可以非同步執行、分塊讀取來源資料,並把輸出直接寫入目標資料集。merge_by_natural_key 這類方法適合這種方式,因為它通常要處理多來源資產、事件、故障或工單記錄。
在介面中,它仍然表現為一次融合執行。執行期間任務可能處於 queued 或 running 狀態;完成後在執行歷史中查看總記錄數、匹配數、衝突數、已寫入列數和錯誤資訊。
適用情況:
- 來源表規模超過一般預覽式執行;
- 輸出需要進入受治理的資料集;
- 審閱人關注執行記錄、衝突數量和交接狀態;
- 任務會按計畫重複執行,或在來源資料刷新後重跑。
Counts-only handoff
部分融合方法使用摘要回應,平台則透過對應服務路徑儲存或發布受治理結果。
| 方法類型 | 正常交接方式 | 使用者查看位置 |
|---|---|---|
| 資料集合併或補齊 | 輸出列寫入目標資料集,並記錄執行總數和衝突。 | 輸出資料集預覽、畫像、血緣和審閱佇列。 |
| MDM 實體解析 | 候選實體、別名和模糊候選交給平台側 MDM 持久化;執行記錄 staged 和 persisted 數量。 | 主資料實體、跨來源別名、人工審閱佇列和執行指標。 |
| 故障事件融合 | 重複事件候選進入人工審閱;執行記錄 persisted 和 skipped candidate 數量。 | 故障融合候選佇列、審閱後事件分組和下游事件資料集。 |
整合設計應圍繞受治理結果位置、分頁審閱介面和執行指標展開。租戶範圍、稽核行為、人工決策和下游刷新由對應平台服務統一負責。
來源列過濾
有些來源包含超出目前融合任務範圍的記錄。融合方法可以在設定中使用 source_row_filters,讓執行過程在匹配前只保留目標來源切片。
示例:
{
"source_row_filters": {
"APCM": {
"any": [
{ "field": "告警类型", "in": ["MMSG告警"] },
{ "field": "告警等级", "in": ["中高", "高"] }
]
}
}
}
過濾規則按來源標籤匹配。沒有命中過濾規則的來源會原樣進入任務。any 表示任一條件命中即可保留,all 表示所有條件命中才保留;每個條件可以使用 in 或 not_in。
使用來源列過濾前應完成:
- 記錄每個過濾條件對應的業務口徑;
- 抽樣檢查過濾前後的來源資料;
- 對計畫任務重新確認基線統計;
- 保留原始來源資料,便於稽核和後續複核。
部署環境可以在資料負責人批准前關閉 source_row_filters。環境設定未啟用時,派發任務會忽略該設定。
已發布規則集與衝突欄位
如果融合方法由已發布的 DFS 規則集驅動,在修改運行任務前應先查看目前規則集。規則集定義欄位提取、匹配規則、幸存規則、置信度權重,以及工作流使用的 AI 輔助閾值。
衝突欄位應反映真正影響業務判斷的差異。受治理身分、資產類型、運行狀態、嚴重度、批次上下文、設備狀態、時間窗口、維護對象等結構化欄位通常更適合作為衝突信號。較長的訊息文字和來源系統專用代碼可以保留在證據記錄中,方便審閱人員回溯,同時避免把文字差異放大成過多衝突。
建立融合任務
- 開啟 Data Fusion。
- 選擇 Create Fusion Task。
- 輸入任務名稱。
- 填寫描述。
- 選擇融合模式。
- 選擇輸入資料集。
- 在需要複用處理邏輯時選擇方法。
- 設定輸出資料集名稱或輸出資料集。
- 設定衝突閾值。
- 儲存任務。
任務名稱應描述業務輸出,例如 巡檢發現與維修記錄匹配、設備別名對齊、預測性維護訊號特徵合併。
執行任務
從任務列表或詳情頁選擇 Run。
執行過程中,任務可能處於 queued、running、completed、failed、cancelled 或 review 狀態。
啟動後檢查:
- 狀態是否開始推進。
- 執行歷史是否生成。
- 總記錄數、匹配數和衝突數是否符合預期。
- review 狀態下是否存在待處理審閱項。
- 審閱完成後再把輸出資料集交給下游使用。
非同步執行與恢復
融合任務在背景執行。大規模串流執行會在派發後繼續檢查結果,保持使用者操作回應及時。
如果服務重啟或依賴異常導致舊執行停留在 RUNNING,排程器可以把逾時執行標記為 failed,並解除任務阻塞。操作人員應先查看執行歷史和錯誤資訊,再根據來源資料、方法設定或容量問題決定是否重試。
重試或取消
失敗任務修復後使用重試。排隊或執行中的任務如果輸入或設定錯誤,可以取消。
重試前確認:
- 輸入資料集存在並可存取;
- 輸出資料集可寫;
- 方法狀態可用;
source_row_filters的來源標籤和欄位名稱仍然正確;- 上一次錯誤資訊已處理;
- 審閱佇列中沒有遺留的阻塞項。
輸出資料集
完成後的輸出資料集應作為受治理資料處理:
- 預覽樣本列;
- 檢查欄位輪廓;
- 明確資料負責人;
- 審閱完成後再驗證資料集;
- 替換或停用舊資料集前檢查 lineage 和下游影響。
當融合輸出使用受治理身分時,應在輸出記錄中寫入穩定的 MDM 實體 ID。例如,可靠性工作流可以把歸一化後的註冊號、標籤、序號或維護對象 ID 透過 MDM 別名台帳解析為實體 ID,並把該 ID 寫入融合事件或可靠性記錄。無法解析或存在歧義的記錄應作為例外留給資料責任人審閱。
相關頁面
| 繼續閱讀 | 適用場景 |
|---|---|
| DFS Pro 資料集 | 從連接器、匯入、擷取或融合結果建立治理資料資產。 |
| 資料集生命週期 | 管理資料集草稿、驗證、發布、版本、停用和封存。 |
| 審閱佇列 | 處理低信心結果、衝突、拒絕列和需要人工確認的資料變更。 |
| 稽核與指標 | 查看資料集、融合任務、審閱動作、同步執行和品質趨勢。 |