儲存與時序資料邊界
DFS 對受治理資料集、目前營運值和高頻時序歷史使用不同儲存路徑。規劃客戶側部署、連接器上線、AI Engine 管道、BI 資料集或預測性維護訊號歷史時,請使用本頁。
目標是讓營運讀取具備租戶範圍、可重複性和可追溯性,同時讓高頻歷史資料進入適合持續寫入的儲存路徑。
儲存模型
| 資料類型 | 典型儲存 | 用途 |
|---|---|---|
| DFS 資料集元資料 | FactVerse 後端資料庫 | 資料集負責人、schema、血緣、生命週期、儲存契約和 steward 狀態。 |
| 物化資料集行 | 後端託管表或已核准外部位置 | 預覽、剖析、BI 查詢、融合輸入和 AI Agent 證據。 |
| DFS Lite 暫存行 | 有界暫存表 | 等待提升的近期映射點位資料。 |
| 目前值 | 目前值讀取模型 | 儀表板、資產脈絡和營運審閱使用的最新點位值。 |
| 有界趨勢值 | 目前值歷史讀取模型 | 面向營運頁面的短窗口趨勢。 |
| 高頻原始遙測 | 部署啟用時使用 ClickHouse | 長週期遙測歷史、彙總和高頻分析。 |
| 管道輸出 | 後端託管物化契約 | AI Engine 或資料管道結果作為受治理資料集發布。 |
資料集儲存契約
物化資料集應攜帶儲存契約,說明資料行所在位置,以及 DFS 預覽、剖析和 BI 查詢是否可以使用。
| 欄位 | 含義 |
|---|---|
physicalLocationType | 物理表、外部 URI 或僅元資料資料集。 |
physicalTableName | 預覽、剖析或 BI 使用的表名。 |
physicalTableScope | 帶租戶欄位的共享表、租戶獨占表、僅元資料或未驗證的既有表。 |
tenantColumnName | 用於範圍讀取的租戶欄位,通常是 tenant_id。 |
tenantPredicateMode | 預覽、剖析和 BI 使用的租戶謂詞形態。 |
previewEligible 和 profileEligible | DFS 預覽和剖析是否可以讀取。 |
biEligible | BI 資料集查詢是否可以使用。 |
共享物化表應包含 tenant_id。缺少租戶範圍的既有表應留在共享 BI 和生產 AI 工作流程之外,直到負責人完成分類或修復。
目前值生命週期
DFS Lite 點位同步先把映射行寫入暫存緩衝區。提升過程隨後更新:
- 最新值讀取模型;
- 用於短窗口趨勢的目前值歷史模型。
缺少連接器身分、映射實體或映射欄位的行應作為跳過提升記錄保留,方便來源負責人修復映射品質。
高頻時序儲存
持續寫入遙測資料時,應規劃高頻儲存路徑。啟用 ClickHouse 的部署可以讓 ClickHouse 管理原始遙測歷史和彙總,同時後端資料庫保留元資料、暫存、目前值、治理和契約。
生產上線前需要規劃:
| 領域 | 規劃問題 |
|---|---|
| 寫入速率 | 預期每秒事件數、平均事件位元組數、突發行為和來源排程。 |
| 保留策略 | 原始資料、分鐘/小時/日彙總、客戶資料保留策略和備份範圍。 |
| 佇列行為 | 遙測寫入的 pending、retry、sent 和 dead-letter 處理。 |
| 負載預算 | 預計 48 小時資料成長是否符合核准的儲存預算。 |
| 租戶隔離 | 租戶範圍查詢、負向讀取檢查和資料庫角色邊界。 |
| 維運 | 監控、儲存成長告警、重放流程和事件關閉證據。 |
高頻遙測源上線計畫任務前應通過負載門控。門控失敗時,需要先調整來源契約、限流、彙總、保留策略或容量,再進入生產使用。
管道輸出物化
AI Engine 和資料管道的輸出如果要成為受治理資料集,應透過後端託管的物化契約發布。契約應攜帶 pipeline、run、node、租戶、行數、欄位 schema、儲存契約,以及後端返回的下游資料集或 warehouse 引用。
這樣可以把資料集生命週期、BI 可用性、租戶範圍和稽核所有權保留在平台層。
驗證檢查表
- 用於預覽、剖析、BI 或 AI Agent 的物化資料集具備儲存契約。
- 共享物理表包含儲存契約要求的租戶欄位。
- 未驗證的既有表不進入共享 BI 和生產 AI 工作流程。
- 目前值和趨勢讀取來自提升後的讀取模型。
- 高頻遙測具備儲存負責人、保留策略、持久佇列行為和負載預算檢查。
- dead-letter 遙測行有操作人員審閱和重放流程。
- 成為受治理資料集的 AI Engine 輸出使用後端託管物化契約。