跳至主要内容

儲存與時序資料邊界

DFS 對受治理資料集、目前營運值和高頻時序歷史使用不同儲存路徑。規劃客戶側部署、連接器上線、AI Engine 管道、BI 資料集或預測性維護訊號歷史時,請使用本頁。

目標是讓營運讀取具備租戶範圍、可重複性和可追溯性,同時讓高頻歷史資料進入適合持續寫入的儲存路徑。

儲存模型

資料類型典型儲存用途
DFS 資料集元資料FactVerse 後端資料庫資料集負責人、schema、血緣、生命週期、儲存契約和 steward 狀態。
物化資料集行後端託管表或已核准外部位置預覽、剖析、BI 查詢、融合輸入和 AI Agent 證據。
DFS Lite 暫存行有界暫存表等待提升的近期映射點位資料。
目前值目前值讀取模型儀表板、資產脈絡和營運審閱使用的最新點位值。
有界趨勢值目前值歷史讀取模型面向營運頁面的短窗口趨勢。
高頻原始遙測部署啟用時使用 ClickHouse長週期遙測歷史、彙總和高頻分析。
管道輸出後端託管物化契約AI Engine 或資料管道結果作為受治理資料集發布。

資料集儲存契約

物化資料集應攜帶儲存契約,說明資料行所在位置,以及 DFS 預覽、剖析和 BI 查詢是否可以使用。

欄位含義
physicalLocationType物理表、外部 URI 或僅元資料資料集。
physicalTableName預覽、剖析或 BI 使用的表名。
physicalTableScope帶租戶欄位的共享表、租戶獨占表、僅元資料或未驗證的既有表。
tenantColumnName用於範圍讀取的租戶欄位,通常是 tenant_id
tenantPredicateMode預覽、剖析和 BI 使用的租戶謂詞形態。
previewEligibleprofileEligibleDFS 預覽和剖析是否可以讀取。
biEligibleBI 資料集查詢是否可以使用。

共享物化表應包含 tenant_id。缺少租戶範圍的既有表應留在共享 BI 和生產 AI 工作流程之外,直到負責人完成分類或修復。

目前值生命週期

DFS Lite 點位同步先把映射行寫入暫存緩衝區。提升過程隨後更新:

  • 最新值讀取模型;
  • 用於短窗口趨勢的目前值歷史模型。

缺少連接器身分、映射實體或映射欄位的行應作為跳過提升記錄保留,方便來源負責人修復映射品質。

高頻時序儲存

持續寫入遙測資料時,應規劃高頻儲存路徑。啟用 ClickHouse 的部署可以讓 ClickHouse 管理原始遙測歷史和彙總,同時後端資料庫保留元資料、暫存、目前值、治理和契約。

生產上線前需要規劃:

領域規劃問題
寫入速率預期每秒事件數、平均事件位元組數、突發行為和來源排程。
保留策略原始資料、分鐘/小時/日彙總、客戶資料保留策略和備份範圍。
佇列行為遙測寫入的 pending、retry、sent 和 dead-letter 處理。
負載預算預計 48 小時資料成長是否符合核准的儲存預算。
租戶隔離租戶範圍查詢、負向讀取檢查和資料庫角色邊界。
維運監控、儲存成長告警、重放流程和事件關閉證據。

高頻遙測源上線計畫任務前應通過負載門控。門控失敗時,需要先調整來源契約、限流、彙總、保留策略或容量,再進入生產使用。

管道輸出物化

AI Engine 和資料管道的輸出如果要成為受治理資料集,應透過後端託管的物化契約發布。契約應攜帶 pipeline、run、node、租戶、行數、欄位 schema、儲存契約,以及後端返回的下游資料集或 warehouse 引用。

這樣可以把資料集生命週期、BI 可用性、租戶範圍和稽核所有權保留在平台層。

驗證檢查表

  • 用於預覽、剖析、BI 或 AI Agent 的物化資料集具備儲存契約。
  • 共享物理表包含儲存契約要求的租戶欄位。
  • 未驗證的既有表不進入共享 BI 和生產 AI 工作流程。
  • 目前值和趨勢讀取來自提升後的讀取模型。
  • 高頻遙測具備儲存負責人、保留策略、持久佇列行為和負載預算檢查。
  • dead-letter 遙測行有操作人員審閱和重放流程。
  • 成為受治理資料集的 AI Engine 輸出使用後端託管物化契約。

相關文件