跳到主要内容

DFS Pro 数据集

从连接器、导入、抽取或融合结果创建治理数据资产。

适用场景

  • 需要执行该 DFS 任务并留下可审阅记录。
  • 需要把源数据交给下游运营、AI 或报表工作流。
  • 需要让项目团队对输入、处理和输出有共同理解。

工作流

操作步骤

  1. 选择来源
  2. 定义 schema
  3. 设置 owner
  4. 验证样例
  5. 发布版本

Source contract 与就绪状态

当数据集来自 DFS Lite 或其他受治理来源时,应把 source contract 带入 Dataset Center。该记录用于说明数据可以如何复用:

记录项建议
Source owner记录能解释源系统行为并批准 schema 变化的团队或角色。
刷新频率说明数据是一次性、定时、事件驱动还是人工刷新。
必填字段标明身份、时间、指标、状态和证据字段。
质量门槛定义预览、画像、空值率、唯一值比例和失败行检查。
消费范围说明数据集会进入融合任务、MDM、BI、AI Agent、Inspector 或其他应用。
就绪状态owner 和质量检查未完成前,不进入共享生产工作流。

使用这份 contract 判断数据集是否可以被融合任务选择、发布为 data product,或交给 AI 工作流。

导入、重处理与拒绝行

文件导入和连接器数据集可能产生 accepted rows 与 rejected rows。拒绝行是给源系统负责人、连接器负责人和下游工作流负责人的运营反馈。

常见检查项:

  • schema 字段存在且命名符合预期;
  • 必需身份字段和时间字段已填充;
  • 数值、日期和状态值可以解析;
  • 重复行可以解释;
  • 行级错误对源系统负责人可见;
  • accepted row count 与 rejected row count 符合导入预期。

源系统负责人修复输入后,应重新处理修正后的文件或源数据切片,并比较运行总数。替换数据集通过验证、下游负责人同意使用前,保留之前失败运行的证据。

检查清单

  • 输入来源、负责人和允许用途已确认。
  • 处理结果可追溯到源路径、字段和时间戳。
  • 失败、冲突、拒绝或异常数据已有审阅结论。

交付结果

  • 可审阅的配置、运行记录、质量说明、处理输出和下游交接记录。

实施说明

保留源系统、字段含义、时间戳、单位、负责人和审阅记录。DFS 输出只有在完成映射、质量检查和交接记录后,才应进入 Inspector、FactVerse AI Agent、BI 或 Physical AI 工作流。

Data product 就绪状态

Data product 是具备负责人、质量、血缘和消费者上下文、可以重复使用的数据集。

发布或交接前确认:

  • 数据集 owner 和 steward 已记录;
  • source contract 和刷新频率已明确;
  • 字段画像和质量检查是最新的;
  • 血缘展示上游来源和下游消费者;
  • 依赖受治理身份的工作流包含 MDM entity ID 或 reviewed event ID;
  • AI Agent、BI、Inspector 或维护工作流有明确消费路径;
  • 已知限制和未关闭例外已记录。

面向 AI Agent 的交接应包含问题范围、证据字段、身份字段、刷新频率和审阅负责人,避免把未审阅源行当成已批准知识。

相关页面

继续阅读适用场景
数据集生命周期管理数据集草稿、验证、发布、版本、弃用和归档。
融合任务将多个数据集合并、补齐、去重或关联,并保留冲突处理记录。
审阅队列处理低置信度结果、冲突、拒绝行和需要人工确认的数据变更。
审计与指标查看数据集、融合任务、审阅动作、同步运行和质量趋势。