跳至主要内容

DFS Pro 資料集

從連接器、匯入、擷取或融合結果建立治理資料資產。

適用場景

  • 需要執行該 DFS 任務並留下可審閱記錄。
  • 需要把來源資料交給下游營運、AI 或報表工作流。
  • 需要讓專案團隊對輸入、處理和輸出有共同理解。

工作流

操作步驟

  1. 選擇來源
  2. 定義 schema
  3. 設定 owner
  4. 驗證樣例
  5. 發布版本

Source contract 與就緒狀態

當資料集來自 DFS Lite 或其他受治理來源時,應把 source contract 帶入 Dataset Center。該記錄用於說明資料可以如何重複使用:

記錄項建議
Source owner記錄能解釋來源系統行為並核准 schema 變更的團隊或角色。
刷新頻率說明資料是一次性、定時、事件驅動還是人工刷新。
必填欄位標明身分、時間、指標、狀態和證據欄位。
品質門檻定義預覽、畫像、空值率、唯一值比例和失敗列檢查。
消費範圍說明資料集會進入融合任務、MDM、BI、AI Agent、Inspector 或其他應用。
就緒狀態owner 和品質檢查未完成前,不進入共享生產工作流。

使用這份 contract 判斷資料集是否可以被融合任務選擇、發布為 data product,或交給 AI 工作流。

匯入、重處理與拒絕列

檔案匯入和連接器資料集可能產生 accepted rows 與 rejected rows。拒絕列是給來源系統負責人、連接器負責人和下游工作流負責人的營運回饋。

常見檢查項:

  • schema 欄位存在且命名符合預期;
  • 必需身分欄位和時間欄位已填充;
  • 數值、日期和狀態值可以解析;
  • 重複列可以解釋;
  • 列級錯誤對來源系統負責人可見;
  • accepted row count 與 rejected row count 符合匯入預期。

來源系統負責人修復輸入後,應重新處理修正後的檔案或來源資料切片,並比較執行總數。替換資料集通過驗證、下游負責人同意使用前,保留之前失敗執行的證據。

檢查清單

  • 輸入來源、負責人和允許用途已確認。
  • 處理結果可追溯到來源路徑、欄位和時間戳。
  • 失敗、衝突、拒絕或異常資料已有審閱結論。

交付結果

  • 可審閱的設定、執行記錄、品質說明、處理輸出和下游交接記錄。

實施說明

保留來源系統、欄位意義、時間戳、單位、負責人和審閱記錄。DFS 輸出只有在完成對應、品質檢查和交接記錄後,才應進入 Inspector、FactVerse AI Agent、BI 或 Physical AI 工作流。

Data product 就緒狀態

Data product 是具備負責人、品質、血緣和消費者上下文、可以重複使用的資料集。

發布或交接前確認:

  • 資料集 owner 和 steward 已記錄;
  • source contract 和刷新頻率已明確;
  • 欄位畫像和品質檢查是最新的;
  • 血緣展示上游來源和下游消費者;
  • 依賴受治理身分的工作流包含 MDM entity ID 或 reviewed event ID;
  • AI Agent、BI、Inspector 或維護工作流有明確消費路徑;
  • 已知限制和未關閉例外已記錄。

面向 AI Agent 的交接應包含問題範圍、證據欄位、身分欄位、刷新頻率和審閱負責人,避免把未審閱來源列當成已核准知識。

相關頁面

繼續閱讀適用場景
資料集生命週期管理資料集草稿、驗證、發布、版本、停用和封存。
融合任務將多個資料集合併、補齊、去重或關聯,並保留衝突處理記錄。
審閱佇列處理低信心結果、衝突、拒絕列和需要人工確認的資料變更。
稽核與指標查看資料集、融合任務、審閱動作、同步執行和品質趨勢。