DFS Pro 資料集
從連接器、匯入、擷取或融合結果建立治理資料資產。
適用場景
- 需要執行該 DFS 任務並留下可審閱記錄。
- 需要把來源資料交給下游營運、AI 或報表工作流。
- 需要讓專案團隊對輸入、處理和輸出有共同理解。
工作流
操作步驟
- 選擇來源
- 定義 schema
- 設定 owner
- 驗證樣例
- 發布版本
Source contract 與就緒狀態
當資料集來自 DFS Lite 或其他受治理來源時,應把 source contract 帶入 Dataset Center。該記錄用於說明資料可以如何重複使用:
| 記錄項 | 建議 |
|---|---|
| Source owner | 記錄能解釋來源系統行為並核准 schema 變更的團隊或角色。 |
| 刷新頻率 | 說明資料是一次性、定時、事件驅動還是人工刷新。 |
| 必填欄位 | 標明身分、時間、指標、狀態和證據欄位。 |
| 品質門檻 | 定義預覽、畫像、空值率、唯一值比例和失敗列檢查。 |
| 消費範圍 | 說明資料集會進入融合任務、MDM、BI、AI Agent、Inspector 或其他應用。 |
| 就緒狀態 | owner 和品質檢查未完成前,不進入共享生產工作流。 |
使用這份 contract 判斷資料集是否可以被融合任務選擇、發布為 data product,或交給 AI 工作流。
匯入、重處理與拒絕列
檔案匯入和連接器資料集可能產生 accepted rows 與 rejected rows。拒絕列是給來源系統負責人、連接器負責人和下游工作流負責人的營運回饋。
常見檢查項:
- schema 欄位存在且命名符合預期;
- 必需身分欄位和時間欄位已填充;
- 數值、日期和狀態值可以解析;
- 重複列可以解釋;
- 列級錯誤對來源系統負責人可見;
- accepted row count 與 rejected row count 符合匯入預期。
來源系統負責人修復輸入後,應重新處理修正後的檔案或來源資料切片,並比較執行總數。替換資料集通過驗證、下游負責人同意使用前,保留之前失敗執行的證據。
檢查清單
- 輸入來源、負責人和允許用途已確認。
- 處理結果可追溯到來源路徑、欄位和時間戳。
- 失敗、衝突、拒絕或異常資料已有審閱結論。
交付結果
- 可審閱的設定、執行記錄、品質說明、處理輸出和下游交接記錄。
實施說明
保留來源系統、欄位意義、時間戳、單位、負責人和審閱記錄。DFS 輸出只有在完成對應、品質檢查和交接記錄後,才應進入 Inspector、FactVerse AI Agent、BI 或 Physical AI 工作流。
Data product 就緒狀態
Data product 是具備負責人、品質、血緣和消費者上下文、可以重複使用的資料集。
發布或交接前確認:
- 資料集 owner 和 steward 已記錄;
- source contract 和刷新頻率已明確;
- 欄位畫像和品質檢查是最新的;
- 血緣展示上游來源和下游消費者;
- 依賴受治理身分的工作流包含 MDM entity ID 或 reviewed event ID;
- AI Agent、BI、Inspector 或維護工作流有明確消費路徑;
- 已知限制和未關閉例外已記錄。
面向 AI Agent 的交接應包含問題範圍、證據欄位、身分欄位、刷新頻率和審閱負責人,避免把未審閱來源列當成已核准知識。
相關頁面
| 繼續閱讀 | 適用場景 |
|---|---|
| 資料集生命週期 | 管理資料集草稿、驗證、發布、版本、停用和封存。 |
| 融合任務 | 將多個資料集合併、補齊、去重或關聯,並保留衝突處理記錄。 |
| 審閱佇列 | 處理低信心結果、衝突、拒絕列和需要人工確認的資料變更。 |
| 稽核與指標 | 查看資料集、融合任務、審閱動作、同步執行和品質趨勢。 |