メインコンテンツまでスキップ

DFS Pro データセット

コネクター、インポート、抽出、統合結果から管理済みデータ資産を作成します。

利用シーン

  • この DFS タスクを実行し、レビュー可能な記録を残す場合。
  • ソースデータを下流の運用、AI、レポートワークフローに渡す場合。
  • 入力、処理、出力についてプロジェクトチームで共通理解を持つ場合。

ワークフロー

手順

  1. ソース選択
  2. schema 定義
  3. owner 設定
  4. サンプル検証
  5. バージョン公開

Source contract と準備状態

データセットが DFS Lite または他の管理対象ソースから来る場合は、source contract を Dataset Center に引き継ぎます。この記録で再利用の境界を明確にします。

記録項目ガイダンス
Source ownerソースの挙動を説明し、schema 変更を承認できるチームまたは役割を記録します。
更新頻度一回限り、定期、イベント駆動、手動更新のどれかを記録します。
必須フィールドID、時刻、メトリクス、状態、証跡フィールドを特定します。
品質ゲートプレビュー、プロファイル、null 比率、distinct 比率、失敗行の確認条件を定義します。
利用範囲統合タスク、MDM、BI、AI Agent、Inspector、その他アプリのどれで使うかを示します。
準備状態owner と品質確認がそろうまで、共有された本番ワークフローには入れません。

この contract を使って、データセットを統合タスクに選択できるか、data product として公開できるか、AI ワークフローへ渡せるかを判断します。

インポート、再処理、拒否行

ファイルインポートとコネクター由来のデータセットでは、accepted rows と rejected rows が発生することがあります。拒否行は、ソース責任者、コネクター責任者、下流ワークフロー責任者への運用フィードバックです。

主な確認項目:

  • schema フィールドが存在し、名称が想定どおりである。
  • 必須の ID フィールドと時刻フィールドが入力されている。
  • 数値、日付、状態値を解析できる。
  • 重複行を説明できる。
  • 行レベルのエラーがソース責任者に見える。
  • accepted row count と rejected row count がインポート想定と一致する。

ソース責任者が入力を修正したら、修正済みファイルまたはソース slice を再処理し、実行件数を比較します。置き換えデータセットが検証され、下流責任者が利用を承認するまで、以前の失敗実行の証跡を残します。

確認項目

  • 入力ソース、責任者、許可された用途が確認されています。
  • 処理結果をソースパス、フィールド、タイムスタンプまで追跡できます。
  • 失敗、競合、拒否、異常データについてレビュー結果があります。

成果物

  • レビュー可能な設定、実行記録、品質メモ、処理出力、下流への引き渡し記録。

実装メモ

ソースシステム、フィールドの意味、タイムスタンプ、単位、責任者、レビュー記録を残してください。DFS の出力は、マッピング、品質確認、引き渡し記録が揃ってから Inspector、FactVerse AI Agent、BI、Physical AI のワークフローに渡します。

Data product の準備状態

Data product は、責任者、品質、lineage、利用者の文脈がそろい、繰り返し利用できるデータセットです。

公開または引き渡し前に確認します。

  • データセット owner と steward が記録されている。
  • source contract と更新頻度が明確である。
  • プロファイルと品質確認が最新である。
  • lineage で上流ソースと下流利用者を確認できる。
  • 管理対象 ID に依存するワークフローでは MDM entity ID または reviewed event ID が含まれている。
  • AI Agent、BI、Inspector、保全ワークフローの利用経路が明確である。
  • 既知の制約と未解決例外が記録されている。

AI Agent 向けの引き渡しでは、質問範囲、証跡フィールド、ID フィールド、更新頻度、レビュー責任者を含めます。これにより、未レビューのソース行を承認済み知識として扱うことを防ぎます。

関連ページ

次に読む利用シーン
データセットライフサイクルデータセットのドラフト、検証、公開、バージョン、廃止、アーカイブを管理します。
統合タスク複数データセットをマージ、補完、重複排除、関連付けし、競合処理を記録します。
レビューキュー低信頼結果、競合、拒否行、人の確認が必要なデータ変更を処理します。
監査とメトリクスデータセット、統合タスク、レビュー操作、同期実行、品質傾向を確認します。