DFS Pro 数据集
从连接器、导入、抽取或融合结果创建治理数据资产。
适用场景
- 需要执行该 DFS 任务并留下可审阅记录。
- 需要把源数据交给下游运营、AI 或报表工作流。
- 需要让项目团队对输入、处理和输出有共同理解。
工作流
操作步骤
- 选择来源
- 定义 schema
- 设置 owner
- 验证样例
- 发布版本
Source contract 与就绪状态
当数据集来自 DFS Lite 或其他受治理来源时,应把 source contract 带入 Dataset Center。该记录用于说明数据可以如何复用:
| 记录项 | 建议 |
|---|---|
| Source owner | 记录能解释源系统行为并批准 schema 变化的团队或角色。 |
| 刷新频率 | 说明数据是一次性、定时、事件驱动还是人工刷新。 |
| 必填字段 | 标明身份、时间、指标、状态和证据字段。 |
| 质量门槛 | 定义预览、画像、空值率、唯一值比例和失败行检查。 |
| 消费范围 | 说明数据集会进入融合任务、MDM、BI、AI Agent、Inspector 或其他应用。 |
| 就绪状态 | owner 和质量检查未完成前,不进入共享生产工作流。 |
使用这份 contract 判断数据集是否可以被融合任务选择、发布为 data product,或交给 AI 工作流。
导入、重处理与拒绝行
文件导入和连接器数据集可能产生 accepted rows 与 rejected rows。拒绝行是给源系统负责人、连接器负责人和下游工作流负责人的运营反馈。
常见检查项:
- schema 字段存在且命名符合预期;
- 必需身份字段和时间字段已填充;
- 数值、日期和状态值可以解析;
- 重复行可以解释;
- 行级错误对源系统负责人可见;
- accepted row count 与 rejected row count 符合导入预期。
源系统负责人修复输入后,应重新处理修正后的文件或源数据切片,并比较运行总数。替换数据集通过验证、下游负责人同意使用前,保留之前失败运行的证据。
检查清单
- 输入来源、负责人和允许用途已确认。
- 处理结果可追溯到源路径、字段和时间戳。
- 失败、冲突、拒绝或异常数据已有审阅结论。
交付结果
- 可审阅的配置、运行记录、质量说明、处理输出和下游交接记录。
实施说明
保留源系统、字段含义、时间戳、单位、负责人和审阅记录。DFS 输出只有在完成映射、质量检查和交接记录后,才应进入 Inspector、FactVerse AI Agent、BI 或 Physical AI 工作流。
Data product 就绪状态
Data product 是具备负责人、质量、血缘和消费者上下文、可以重复使用的数据集。
发布或交接前确认:
- 数据集 owner 和 steward 已记录;
- source contract 和刷新频率已明确;
- 字段画像和质量检查是最新的;
- 血缘展示上游来源和下游消费者;
- 依赖受治理身份的工作流包含 MDM entity ID 或 reviewed event ID;
- AI Agent、BI、Inspector 或维护工作流有明确消费路径;
- 已知限制和未关闭例外已记录。
面向 AI Agent 的交接应包含问题范围、证据字段、身份字段、刷新频率和审阅负责人,避免把未审阅源行当成已批准知识。
相关页面
| 继续阅读 | 适用场景 |
|---|---|
| 数据集生命周期 | 管理数据集草稿、验证、发布、版本、弃用和归档。 |
| 融合任务 | 将多个数据集合并、补齐、去重或关联,并保留冲突处理记录。 |
| 审阅队列 | 处理低置信度结果、冲突、拒绝行和需要人工确认的数据变更。 |
| 审计与指标 | 查看数据集、融合任务、审阅动作、同步运行和质量趋势。 |