数据集生命周期
管理数据集草稿、验证、发布、版本、弃用和归档。
适用场景
- 需要执行该 DFS 任务并留下可审阅记录。
- 需要把源数据交给下游运营、AI 或报表工作流。
- 需要让项目团队对输入、处理和输出有共同理解。
工作流
操作步骤
- 创建草稿
- 验证质量
- 发布版本
- 审查影响
- 弃用或归档
当数据集从 DFS Lite 提升而来时,应带上源系统负责人、连接器引用、刷新频率、必填字段、最近同步证据和已知源限制。后续审阅人员需要这些信息判断数据集为何存在,以及在哪些条件下可以复用。
导入与重处理检查
数据集来自文件导入、连接器快照或重处理源切片时,验证前先比较运行总数:
| 检查项 | 确认内容 |
|---|---|
| Accepted rows | 接受行数量符合源系统负责人确认的范围。 |
| Rejected rows | 行级错误可见,并分配给正确负责人处理。 |
| Schema match | 必填字段、数据类型和列名符合数据集 contract。 |
| 身份与时间字段 | 资产、设备、事件或时间戳字段能支撑目标工作流。 |
| Reprocess result | 修正后的源切片降低了预期错误数量,并保留血缘。 |
替换数据集完成验证、下游消费者确认使用前,保留失败导入证据。
检查清单
- 输入来源、负责人和允许用途已确认。
- 处理结果可追溯到源路径、字段和时间戳。
- 失败、冲突、拒绝或异常数据已有审阅结论。
交付结果
- 可审阅的配置、运行记录、质量说明、处理输出和下游交接记录。
实施说明
保留源系统、字段含义、时间戳、单位、负责人和审阅记录。DFS 输出只有在完成映射、质量检查和交接记录后,才应进入 Inspector、FactVerse AI Agent、BI 或 Physical AI 工作流。
相关页面
| 继续阅读 | 适用场景 |
|---|---|
| DFS Pro 数据集 | 从连接器、导入、抽取或融合结果创建治理数据资产。 |
| 融合任务 | 将多个数据集合并、补齐、去重或关联,并保留冲突处理记录。 |
| 审阅队列 | 处理低置信度结果、冲突、拒绝行和需要人工确认的数据变更。 |
| 审计与指标 | 查看数据集、融合任务、审阅动作、同步运行和质量趋势。 |