跳到主要内容

存储与时序数据边界

DFS 对受治理数据集、当前运营值和高频时序历史使用不同存储路径。规划客户侧部署、连接器上线、AI Engine 管道、BI 数据集或预测性维护信号历史时,请使用本页。

目标是让运营读取具备租户范围、可重复性和可追溯性,同时让高频历史数据进入适合持续写入的存储路径。

存储模型

数据类型典型存储用途
DFS 数据集元数据FactVerse 后端数据库数据集负责人、schema、血缘、生命周期、存储契约和 steward 状态。
物化数据集行后端托管表或已批准外部位置预览、画像、BI 查询、融合输入和 AI Agent 证据。
DFS Lite 暂存行有界暂存表等待提升的近期映射点位数据。
当前值当前值读取模型仪表板、资产上下文和运营审阅使用的最新点位值。
有界趋势值当前值历史读取模型面向运营页面的短窗口趋势。
高频原始遥测部署启用时使用 ClickHouse长周期遥测历史、聚合和高频分析。
管道输出后端托管物化契约AI Engine 或数据管道结果作为受治理数据集发布。

数据集存储契约

物化数据集应携带存储契约,说明数据行所在位置,以及 DFS 预览、画像和 BI 查询是否可以使用。

字段含义
physicalLocationType物理表、外部 URI 或仅元数据数据集。
physicalTableName预览、画像或 BI 使用的表名。
physicalTableScope带租户列的共享表、租户独占表、仅元数据或未验证的既有表。
tenantColumnName用于范围读取的租户列,通常是 tenant_id
tenantPredicateMode预览、画像和 BI 使用的租户谓词形态。
previewEligibleprofileEligibleDFS 预览和画像是否可以读取。
biEligibleBI 数据集查询是否可以使用。

共享物化表应包含 tenant_id。缺少租户范围的既有表应留在共享 BI 和生产 AI 工作流之外,直到负责人完成分类或修复。

当前值生命周期

DFS Lite 点位同步先把映射行写入暂存缓冲区。提升过程随后更新:

  • 最新值读取模型;
  • 用于短窗口趋势的当前值历史模型。

缺少连接器身份、映射实体或映射字段的行应作为跳过提升记录保留,方便来源负责人修复映射质量。

当前值读取适用于:

  • 最新设备上下文;
  • 设施或数据中心仪表板;
  • 现场分诊;
  • 短窗口运营趋势;
  • 需要当前状态的 AI Agent 上下文。

高频历史存储适用于:

  • 长时间回看;
  • 预测性维护训练数据;
  • 高频遥测分析;
  • 超出有界趋势窗口的保留周期。

高频时序存储

持续写入遥测数据时,应规划高频存储路径。启用 ClickHouse 的部署可以让 ClickHouse 管理原始遥测历史和聚合,同时后端数据库保留元数据、暂存、当前值、治理和契约。

生产上线前需要规划:

领域规划问题
写入速率预期每秒事件数、平均事件字节数、突发行为和来源调度。
保留策略原始数据、分钟/小时/日聚合、客户数据保留策略和备份范围。
队列行为遥测写入的 pending、retry、sent 和 dead-letter 处理。
负载预算预计 48 小时数据增长是否符合批准的存储预算。
租户隔离租户范围查询、负向读取检查和数据库角色边界。
运维监控、存储增长告警、重放流程和事件关闭证据。

高频遥测源上线计划任务前应通过负载门控。门控失败时,需要先调整来源契约、限流、聚合、保留策略或容量,再进入生产使用。

管道输出物化

AI Engine 和数据管道的输出如果要成为受治理数据集,应通过后端托管的物化契约发布。契约应携带:

  • pipeline、run 和 node 身份;
  • 租户身份;
  • 行数和列数;
  • 字段 schema;
  • 允许时携带有界 inline records;
  • 存储契约元数据;
  • 后端返回的下游数据集或 warehouse 引用。

这样可以把数据集生命周期、BI 可用性、租户范围和审计所有权保留在平台层。

验证检查表

  • 用于预览、画像、BI 或 AI Agent 的物化数据集具备存储契约。
  • 共享物理表包含存储契约要求的租户列。
  • 未验证的既有表不进入共享 BI 和生产 AI 工作流。
  • 当前值和趋势读取来自提升后的读取模型,而不是无界暂存缓冲区。
  • 高频遥测具备存储负责人、保留策略、持久队列行为和负载预算检查。
  • dead-letter 遥测行有操作人员审阅和重放流程。
  • 成为受治理数据集的 AI Engine 输出使用后端托管物化契约。
  • 客户部署容量包含数据库 I/O、ClickHouse 或等价遥测存储、队列容量、备份范围和监控。

故障排查

现象检查项
数据集预览被阻止存储契约、租户列、表范围、数据集状态和用户权限。
BI 无法查询数据集biEligible、租户范围表、字段白名单和数据集验证状态。
最新值过期连接器同步、暂存提升状态、跳过提升原因和清理策略。
趋势窗口过短当前值历史保留策略、产品预期和高频历史需求。
遥测队列增长ClickHouse 可用性、重试次数、dead-letter 原因、写入速率和存储预算。
管道输出与表冲突使用后端托管物化,把直接替换表作为需要项目批准的例外处理。

相关文档