DFS Pro データセット
コネクター、インポート、抽出、統合結果から管理済みデータ資産を作成します。
利用シーン
- この DFS タスクを実行し、レビュー可能な記録を残す場合。
- ソースデータを下流の運用、AI、レポートワークフローに渡す場合。
- 入力、処理、出力についてプロジェクトチームで共通理解を持つ場合。
ワークフロー
手順
- ソース選択
- schema 定義
- owner 設定
- サンプル検証
- バージョン公開
Source contract と準備状態
データセットが DFS Lite または他の管理対象ソースから来る場合は、source contract を Dataset Center に引き継ぎます。この記録で再利用の境界を明確にします。
| 記録項目 | ガイダンス |
|---|---|
| Source owner | ソースの挙動を説明し、schema 変更を承認できるチームまたは役割を記録します。 |
| 更新頻度 | 一回限り、定期、イベント駆動、手動更新のどれかを記録します。 |
| 必須フィールド | ID、時刻、メトリクス、状態、証跡フィールドを特定します。 |
| 品質ゲート | プレビュー、プロファイル、null 比率、distinct 比率、失敗行の確認条件を定義します。 |
| 利用範囲 | 統合タスク、MDM、BI、AI Agent、Inspector、その他アプリのどれで使うかを示します。 |
| 準備状態 | owner と品質確認がそろうまで、共有された本番ワークフローには入れません。 |
この contract を使って、データセットを統合タスクに選択できるか、data product として公開できるか、AI ワークフローへ渡せるかを判断します。
インポート、再処理、拒否行
ファイルインポートとコネクター由来のデータセットでは、accepted rows と rejected rows が発生することがあります。拒否行は、ソース責任者、コネクター責任者、下流ワークフロー責任者への運用フィードバックです。
主な確認項目:
- schema フィールドが存在し、名称が想定どおりである。
- 必須の ID フィールドと時刻フィールドが入力されている。
- 数値、日付、状態値を解析できる。
- 重複行を説明できる。
- 行レベルのエラーがソース責任者に見える。
- accepted row count と rejected row count がインポート想定と一致する。
ソース責任者が入力を修正したら、修正済みファイルまたはソース slice を再処理し、実行件数を比較します。置き換えデータセットが検証され、下流責任者が利用を承認するまで、以前の失敗実行の証跡を残します。
確認項目
- 入力ソース、責任者、許可された用途が確認されています。
- 処理結果をソースパス、フィールド、タイムスタンプまで追跡できます。
- 失敗、競合、拒否、異常データについてレビュー結果があります。
成果物
- レビュー可能な設定、実行記録、品質メモ、処理出力、下流への引き渡し記録。
実装メモ
ソースシステム、フィールドの意味、タイムスタンプ、単位、責任者、レビュー記録を残してください。DFS の出力は、マッピング、品質確認、引き渡し記録が揃ってから Inspector、FactVerse AI Agent、BI、Physical AI のワークフローに渡します。
Data product の準備状態
Data product は、責任者、品質、lineage、利用者の文脈がそろい、繰り返し利用できるデータセットです。
公開または引き渡し前に確認します。
- データセット owner と steward が記録されている。
- source contract と更新頻度が明確である。
- プロファイルと品質確認が最新である。
- lineage で上流ソースと下流利用者を確認できる。
- 管理対象 ID に依存するワークフローでは MDM entity ID または reviewed event ID が含まれている。
- AI Agent、BI、Inspector、保全ワークフローの利用経路が明確である。
- 既知の制約と未解決例外が記録されている。
AI Agent 向けの引き渡しでは、質問範囲、証跡フィールド、ID フィールド、更新頻度、レビュー責任者を含めます。これにより、未レビューのソース行を承認済み知識として扱うことを防ぎます。
関連ページ
| 次に読む | 利用シーン |
|---|---|
| データセットライフサイクル | データセットのドラフト、検証、公開、バージョン、廃止、アーカイブを管理します。 |
| 統合タスク | 複数データセットをマージ、補完、重複排除、関連付けし、競合処理を記録します。 |
| レビューキュー | 低信頼結果、競合、拒否行、人の確認が必要なデータ変更を処理します。 |
| 監査とメトリクス | データセット、統合タスク、レビュー操作、同期実行、品質傾向を確認します。 |