跳至主要内容

融合任務

融合任務用於把多個資料集中的記錄進行匹配、合併、補齊、去重或關聯,並保留可審閱的執行記錄。它適合設備身分對齊、巡檢記錄與工單關聯、多站點營運資料彙總、預測性維護特徵準備,以及 FactVerse AI Agent 使用的資料集準備。

前置條件

建立任務前先確認:

  • 輸入資料集已存在,且目前使用者有存取權限;
  • 每個輸入來源有明確負責人;
  • key fields、timestamp fields、identity fields 和單位已理解;
  • 輸出資料集名稱、負責人和下游用途已明確;
  • 匹配方式、衝突閾值和審閱責任已確認;
  • 可能產生衝突或低信心結果時,審閱人已安排好。

工作流

開啟資料融合

進入:

Data Integration > Data Fusion

頁面會顯示融合任務、模式、狀態、輸出資料集和執行入口。

融合模式

模式適用情況
Rule Matching有穩定資產 ID、時間窗口或已知關鍵欄位,可以用確定性規則匹配。
Semantic Matching名稱、別名、描述或關係需要比較。
LLM Assisted需要語言理解輔助,且不確定結果會進入人工審閱。

穩定關鍵欄位可用時,優先使用規則匹配。來源系統名稱、別名或描述差異較大時,再使用語義或 LLM 輔助方式。

大規模來源資料融合

對於較大的營運資料集,支援的方法可以非同步執行、分塊讀取來源資料,並把輸出直接寫入目標資料集。merge_by_natural_key 這類方法適合這種方式,因為它通常要處理多來源資產、事件、故障或工單記錄。

在介面中,它仍然表現為一次融合執行。執行期間任務可能處於 queued 或 running 狀態;完成後在執行歷史中查看總記錄數、匹配數、衝突數、已寫入列數和錯誤資訊。

適用情況:

  • 來源表規模超過一般預覽式執行;
  • 輸出需要進入受治理的資料集;
  • 審閱人關注執行記錄、衝突數量和交接狀態;
  • 任務會按計畫重複執行,或在來源資料刷新後重跑。

Counts-only handoff

部分融合方法使用摘要回應,平台則透過對應服務路徑儲存或發布受治理結果。

方法類型正常交接方式使用者查看位置
資料集合併或補齊輸出列寫入目標資料集,並記錄執行總數和衝突。輸出資料集預覽、畫像、血緣和審閱佇列。
MDM 實體解析候選實體、別名和模糊候選交給平台側 MDM 持久化;執行記錄 staged 和 persisted 數量。主資料實體、跨來源別名、人工審閱佇列和執行指標。
故障事件融合重複事件候選進入人工審閱;執行記錄 persisted 和 skipped candidate 數量。故障融合候選佇列、審閱後事件分組和下游事件資料集。

整合設計應圍繞受治理結果位置、分頁審閱介面和執行指標展開。租戶範圍、稽核行為、人工決策和下游刷新由對應平台服務統一負責。

來源列過濾

有些來源包含超出目前融合任務範圍的記錄。融合方法可以在設定中使用 source_row_filters,讓執行過程在匹配前只保留目標來源切片。

示例:

{
"source_row_filters": {
"APCM": {
"any": [
{ "field": "告警类型", "in": ["MMSG告警"] },
{ "field": "告警等级", "in": ["中高", "高"] }
]
}
}
}

過濾規則按來源標籤匹配。沒有命中過濾規則的來源會原樣進入任務。any 表示任一條件命中即可保留,all 表示所有條件命中才保留;每個條件可以使用 innot_in

使用來源列過濾前應完成:

  • 記錄每個過濾條件對應的業務口徑;
  • 抽樣檢查過濾前後的來源資料;
  • 對計畫任務重新確認基線統計;
  • 保留原始來源資料,便於稽核和後續複核。

部署環境可以在資料負責人批准前關閉 source_row_filters。環境設定未啟用時,派發任務會忽略該設定。

已發布規則集與衝突欄位

如果融合方法由已發布的 DFS 規則集驅動,在修改運行任務前應先查看目前規則集。規則集定義欄位提取、匹配規則、幸存規則、置信度權重,以及工作流使用的 AI 輔助閾值。

衝突欄位應反映真正影響業務判斷的差異。受治理身分、資產類型、運行狀態、嚴重度、批次上下文、設備狀態、時間窗口、維護對象等結構化欄位通常更適合作為衝突信號。較長的訊息文字和來源系統專用代碼可以保留在證據記錄中,方便審閱人員回溯,同時避免把文字差異放大成過多衝突。

建立融合任務

  1. 開啟 Data Fusion。
  2. 選擇 Create Fusion Task
  3. 輸入任務名稱。
  4. 填寫描述。
  5. 選擇融合模式。
  6. 選擇輸入資料集。
  7. 在需要複用處理邏輯時選擇方法。
  8. 設定輸出資料集名稱或輸出資料集。
  9. 設定衝突閾值。
  10. 儲存任務。

任務名稱應描述業務輸出,例如 巡檢發現與維修記錄匹配設備別名對齊預測性維護訊號特徵合併

執行任務

從任務列表或詳情頁選擇 Run

執行過程中,任務可能處於 queued、running、completed、failed、cancelled 或 review 狀態。

啟動後檢查:

  1. 狀態是否開始推進。
  2. 執行歷史是否生成。
  3. 總記錄數、匹配數和衝突數是否符合預期。
  4. review 狀態下是否存在待處理審閱項。
  5. 審閱完成後再把輸出資料集交給下游使用。

非同步執行與恢復

融合任務在背景執行。大規模串流執行會在派發後繼續檢查結果,保持使用者操作回應及時。

如果服務重啟或依賴異常導致舊執行停留在 RUNNING,排程器可以把逾時執行標記為 failed,並解除任務阻塞。操作人員應先查看執行歷史和錯誤資訊,再根據來源資料、方法設定或容量問題決定是否重試。

重試或取消

失敗任務修復後使用重試。排隊或執行中的任務如果輸入或設定錯誤,可以取消。

重試前確認:

  • 輸入資料集存在並可存取;
  • 輸出資料集可寫;
  • 方法狀態可用;
  • source_row_filters 的來源標籤和欄位名稱仍然正確;
  • 上一次錯誤資訊已處理;
  • 審閱佇列中沒有遺留的阻塞項。

輸出資料集

完成後的輸出資料集應作為受治理資料處理:

  • 預覽樣本列;
  • 檢查欄位輪廓;
  • 明確資料負責人;
  • 審閱完成後再驗證資料集;
  • 替換或停用舊資料集前檢查 lineage 和下游影響。

當融合輸出使用受治理身分時,應在輸出記錄中寫入穩定的 MDM 實體 ID。例如,可靠性工作流可以把歸一化後的註冊號、標籤、序號或維護對象 ID 透過 MDM 別名台帳解析為實體 ID,並把該 ID 寫入融合事件或可靠性記錄。無法解析或存在歧義的記錄應作為例外留給資料責任人審閱。

相關頁面

繼續閱讀適用場景
DFS Pro 資料集從連接器、匯入、擷取或融合結果建立治理資料資產。
資料集生命週期管理資料集草稿、驗證、發布、版本、停用和封存。
審閱佇列處理低信心結果、衝突、拒絕列和需要人工確認的資料變更。
稽核與指標查看資料集、融合任務、審閱動作、同步執行和品質趨勢。