統合タスク

統合タスクは、複数データセットのレコードを照合、マージ、補完、重複排除、関連付けし、レビュー可能な実行記録を残すために使います。設備 ID の整合、点検記録と作業指示の関連付け、複数拠点の運用データ集約、予知保全向け特徴量準備、FactVerse AI Agent が使うデータセット準備に適しています。

前提条件

タスク作成前に確認します。

入力データセットが存在し、現在のユーザーがアクセスできる。
各入力ソースに責任者がいる。
key fields、timestamp fields、identity fields、単位を理解している。
出力データセット名、責任者、下流用途が決まっている。
照合方式、競合しきい値、レビュー責任が決まっている。
競合や低信頼結果が出る場合のレビュアーが決まっている。

ワークフロー

Data Fusion を開く

次の場所に移動します。

Data Integration > Data Fusion

ページには統合タスク、モード、ステータス、出力データセット、実行操作が表示されます。

統合モード

モード	利用シーン
Rule Matching	安定した asset ID、時間窓、既知のキー列で決定的に照合できる場合。
Semantic Matching	名称、別名、説明、関係を比較する必要がある場合。
LLM Assisted	言語理解の補助が必要で、不確実な結果を人がレビューする場合。

安定したキーがある場合は rule matching を優先します。ソース間で名称、別名、説明が大きく異なる場合は semantic または LLM assisted を使います。

大規模ソースの統合

大きな運用データセットでは、対応メソッドが非同期で実行され、ソースデータをチャンク単位で読み取り、出力を対象データセットへ直接保存できます。merge_by_natural_key は、複数ソースの資産、イベント、障害、作業指示を扱う場面に適しています。

UI 上は 1 回の統合実行として表示されます。処理中は queued または running の状態が続くことがあります。完了後は実行履歴で総レコード数、照合数、競合数、保存された行数、エラーを確認します。

この方式が適する場面：

ソース表がプレビュー型実行には大きい。
出力を管理対象データセットへ保存する。
レビュアーが実行履歴、競合数、引き渡し状態を確認する。
予定実行またはソース更新後の再実行が必要。

Counts-only handoff

一部の統合メソッドでは、レスポンスはサマリーになり、管理対象の結果は対応するサービス経路で保存または公開されます。

メソッド種別	通常の引き渡し	ユーザーが確認する場所
データセットのマージまたは補完	出力行を対象データセットへ保存し、実行件数と競合を記録します。	出力データセットのプレビュー、プロファイル、lineage、レビューキュー。
MDM エンティティ解決	候補エンティティ、別名、曖昧候補をプラットフォーム側 MDM 永続化へ渡し、実行には staged と persisted の件数を記録します。	Master Entities、Cross-Source Aliases、Steward Queue、実行指標。
故障イベント融合	重複イベント候補をレビューへ送信し、実行には persisted と skipped candidate の件数を記録します。	故障融合候補キュー、レビュー済みイベントグループ、下流イベントデータセット。

統合は、管理対象結果の場所、ページングされたレビュー画面、実行指標を中心に設計します。tenant scope、監査、steward 判断、下流更新は対応するプラットフォームサービスが一貫して扱います。

ソース行フィルター

ソースによっては、特定の統合タスクの範囲外となる行があります。統合メソッドは source_row_filters を設定に持つことができ、実行時に照合前の対象ソース行を限定します。

例：

{
  "source_row_filters": {
    "APCM": {
      "any": [
        { "field": "告警类型", "in": ["MMSG告警"] },
        { "field": "告警等级", "in": ["中高", "高"] }
      ]
    }
  }
}

フィルターはソースラベルで適用されます。一致するフィルターがないソースはそのまま処理されます。any はいずれかの条件に一致した行を残し、all はすべての条件に一致した行を残します。各条件では in または not_in を使えます。

利用前に確認します。

各フィルター条件の業務ルールを記録する。
フィルター前後のソース行をサンプリングする。
予定タスクでは基準となる件数を再確認する。
監査と再確認のために元ソースデータを保持する。

導入環境では、データ責任者の承認まで source_row_filters を無効にできます。環境設定が有効でない場合、タスク派遣時にこの設定は適用されません。

公開済みルールセットと競合フィールド

融合メソッドが公開済み DFS ルールセットで動作する場合、運用中タスクを変更する前に現在のルールセットを確認します。ルールセットにはフィールド抽出、照合ルール、サバイバーシップルール、信頼度重み、ワークフローで使う AI 補助しきい値が含まれます。

競合フィールドは、業務判断を変える差分に絞ります。管理済み ID、資産種別、運転状態、重要度、バッチ文脈、設備状態、時間窓、保全対象などの構造化フィールドは、自由記述メッセージやソース固有コードよりも競合シグナルに適しています。長いメッセージ本文やソース固有コードは証跡記録に残し、レビュアーが追跡できるようにします。

フィールド単位のソース優先度

一部の統合タスクでは、フィールドごとに異なるサバイバーシップルールが必要です。たとえば、ある CMMS が作業指示状態を管理し、別のシステムが資産階層を管理し、現場プロトコルソースが最新の運転値を提供する場合があります。DFS Pro では、レコード全体の勝者を一つに決めるのではなく、フィールド単位のソース優先度として設計できます。

フィールドグループ	ソース優先度の例
資産 ID	MDM 管理資産、CMMS 資産 ID、インポート済みエイリアステーブル。
作業指示ライフサイクル	主 CMMS、補助プロバイダー、人による例外レビュー。
運転値	現場プロトコルまたはセンサーソース、計算済みデータセット、手入力値。
証拠リンク	ECM 文書パッケージ、プロバイダー添付、点検メモ。

レビューキューでは、検出された総競合数と人のレビューが必要な競合数を分けます。タスクは監査用に全競合数を保持しつつ、しきい値を超えるレコード、保護対象フィールド、必要証拠が欠けるレコードだけを Steward キューに回します。