メインコンテンツまでスキップ

統合タスク

統合タスクは、複数データセットのレコードを照合、マージ、補完、重複排除、関連付けし、レビュー可能な実行記録を残すために使います。設備 ID の整合、点検記録と作業指示の関連付け、複数拠点の運用データ集約、予知保全向け特徴量準備、FactVerse AI Agent が使うデータセット準備に適しています。

前提条件

タスク作成前に確認します。

  • 入力データセットが存在し、現在のユーザーがアクセスできる。
  • 各入力ソースに責任者がいる。
  • key fields、timestamp fields、identity fields、単位を理解している。
  • 出力データセット名、責任者、下流用途が決まっている。
  • 照合方式、競合しきい値、レビュー責任が決まっている。
  • 競合や低信頼結果が出る場合のレビュアーが決まっている。

ワークフロー

Data Fusion を開く

次の場所に移動します。

Data Integration > Data Fusion

ページには統合タスク、モード、ステータス、出力データセット、実行操作が表示されます。

統合モード

モード利用シーン
Rule Matching安定した asset ID、時間窓、既知のキー列で決定的に照合できる場合。
Semantic Matching名称、別名、説明、関係を比較する必要がある場合。
LLM Assisted言語理解の補助が必要で、不確実な結果を人がレビューする場合。

安定したキーがある場合は rule matching を優先します。ソース間で名称、別名、説明が大きく異なる場合は semantic または LLM assisted を使います。

大規模ソースの統合

大きな運用データセットでは、対応メソッドが非同期で実行され、ソースデータをチャンク単位で読み取り、出力を対象データセットへ直接保存できます。merge_by_natural_key は、複数ソースの資産、イベント、障害、作業指示を扱う場面に適しています。

UI 上は 1 回の統合実行として表示されます。処理中は queued または running の状態が続くことがあります。完了後は実行履歴で総レコード数、照合数、競合数、保存された行数、エラーを確認します。

この方式が適する場面:

  • ソース表がプレビュー型実行には大きい。
  • 出力を管理対象データセットへ保存する。
  • レビュアーが実行履歴、競合数、引き渡し状態を確認する。
  • 予定実行またはソース更新後の再実行が必要。

Counts-only handoff

一部の統合メソッドでは、レスポンスはサマリーになり、管理対象の結果は対応するサービス経路で保存または公開されます。

メソッド種別通常の引き渡しユーザーが確認する場所
データセットのマージまたは補完出力行を対象データセットへ保存し、実行件数と競合を記録します。出力データセットのプレビュー、プロファイル、lineage、レビューキュー。
MDM エンティティ解決候補エンティティ、別名、曖昧候補をプラットフォーム側 MDM 永続化へ渡し、実行には staged と persisted の件数を記録します。Master Entities、Cross-Source Aliases、Steward Queue、実行指標。
故障イベント融合重複イベント候補をレビューへ送信し、実行には persisted と skipped candidate の件数を記録します。故障融合候補キュー、レビュー済みイベントグループ、下流イベントデータセット。

統合は、管理対象結果の場所、ページングされたレビュー画面、実行指標を中心に設計します。tenant scope、監査、steward 判断、下流更新は対応するプラットフォームサービスが一貫して扱います。

ソース行フィルター

ソースによっては、特定の統合タスクの範囲外となる行があります。統合メソッドは source_row_filters を設定に持つことができ、実行時に照合前の対象ソース行を限定します。

例:

{
"source_row_filters": {
"APCM": {
"any": [
{ "field": "告警类型", "in": ["MMSG告警"] },
{ "field": "告警等级", "in": ["中高", "高"] }
]
}
}
}

フィルターはソースラベルで適用されます。一致するフィルターがないソースはそのまま処理されます。any はいずれかの条件に一致した行を残し、all はすべての条件に一致した行を残します。各条件では in または not_in を使えます。

利用前に確認します。

  • 各フィルター条件の業務ルールを記録する。
  • フィルター前後のソース行をサンプリングする。
  • 予定タスクでは基準となる件数を再確認する。
  • 監査と再確認のために元ソースデータを保持する。

導入環境では、データ責任者の承認まで source_row_filters を無効にできます。環境設定が有効でない場合、タスク派遣時にこの設定は適用されません。

公開済みルールセットと競合フィールド

融合メソッドが公開済み DFS ルールセットで動作する場合、運用中タスクを変更する前に現在のルールセットを確認します。ルールセットにはフィールド抽出、照合ルール、サバイバーシップルール、信頼度重み、ワークフローで使う AI 補助しきい値が含まれます。

競合フィールドは、業務判断を変える差分に絞ります。管理済み ID、資産種別、運転状態、重要度、バッチ文脈、設備状態、時間窓、保全対象などの構造化フィールドは、自由記述メッセージやソース固有コードよりも競合シグナルに適しています。長いメッセージ本文やソース固有コードは証跡記録に残し、レビュアーが追跡できるようにします。

統合タスクを作成する

  1. Data Fusion を開きます。
  2. Create Fusion Task を選択します。
  3. タスク名を入力します。
  4. 説明を入力します。
  5. 統合モードを選択します。
  6. 入力データセットを選択します。
  7. 再利用する処理ロジックがある場合はメソッドを選択します。
  8. 出力データセット名または出力データセットを設定します。
  9. 競合しきい値を設定します。
  10. タスクを保存します。

タスク名は業務上の出力を表す名前にします。例:点検結果と保全記録の照合設備別名の整合予知保全シグナル特徴量の統合

タスクを実行する

タスク一覧または詳細ページで Run を選択します。

実行中、タスクは queued、running、completed、failed、cancelled、review のいずれかの状態になります。

開始後に確認します。

  1. ステータスが進んでいる。
  2. 実行履歴が作成されている。
  3. 総レコード数、照合数、競合数が想定範囲にある。
  4. review 状態の場合、処理すべきレビュー項目がある。
  5. レビュー完了後に出力データセットを下流へ渡す。

非同期実行と復旧

統合タスクはバックグラウンドで実行されます。大規模なストリーミング実行では、派遣後に結果を確認し続けるため、ユーザー操作の応答性を保てます。

サービス再起動や依存先障害により古い実行が RUNNING のまま残った場合、スケジューラは期限切れ実行を failed にし、タスクを再実行可能な状態に戻せます。担当者は実行履歴とエラーを確認し、ソースデータ、メソッド設定、容量の問題を処理してから再試行します。

再試行またはキャンセル

失敗したタスクは修正後に再試行します。入力や設定が誤っている queued または running のタスクはキャンセルできます。

再試行前に確認します。

  • 入力データセットが存在しアクセスできる。
  • 出力データセットへ書き込める。
  • メソッドが利用可能な状態である。
  • source_row_filters のソースラベルとフィールド名が正しい。
  • 前回のエラーが解消されている。
  • レビューキューに未解決のブロック項目がない。

出力データセット

完了した出力データセットは管理対象データとして扱います。

  • サンプル行をプレビューする。
  • 列プロファイルを確認する。
  • データ責任者を明確にする。
  • レビュー後にデータセットを検証する。
  • 旧データセットを置換または廃止する前に lineage と下流影響を確認する。

融合出力で管理済み ID を使う場合、出力レコードに安定した MDM エンティティ ID を含めます。たとえば信頼性ワークフローでは、正規化済みの登録番号、タグ、シリアル番号、保全対象 ID を MDM の別名台帳で解決し、そのエンティティ ID を融合イベントまたは信頼性レコードへ書き込めます。解決できない行や曖昧な行は例外として残し、データ責任者のレビューに回します。

関連ページ

次に読む利用シーン
DFS Pro データセットコネクター、インポート、抽出、統合結果から管理済みデータ資産を作成します。
データセットライフサイクルデータセットのドラフト、検証、公開、バージョン、廃止、アーカイブを管理します。
レビューキュー低信頼結果、競合、拒否行、人の確認が必要なデータ変更を処理します。
監査とメトリクスデータセット、統合タスク、レビュー操作、同期実行、品質傾向を確認します。