統合タスク
統合タスクは、複数データセットのレコードを照合、マージ、補完、重複排除、関連付けし、レビュー可能な実行記録を残すために使います。設備 ID の整合、点検記録と作業指示の関連付け、複数拠点の運用データ集約、予知保全向け特徴量準備、FactVerse AI Agent が使うデータセット準備に適しています。
前提条件
タスク作成前に確認します。
- 入力データセットが存在し、現在のユーザーがアクセスできる。
- 各入力ソースに責任者がいる。
- key fields、timestamp fields、identity fields、単位を理解している。
- 出力データセット名、責任者、下流用途が決まっている。
- 照合方式、競合しきい値、レビュー責任が決まっている。
- 競合や低信頼結果が出る場合のレビュアーが決まっている。
ワークフロー
Data Fusion を開く
次の場所に移動します。
Data Integration > Data Fusion
ページには統合タスク、モード、ステータス、出力データセット、実行操作が表示されます。
統合モード
| モード | 利用シーン |
|---|---|
| Rule Matching | 安定した asset ID、時間窓、既知のキー列で決定的に照合できる場合。 |
| Semantic Matching | 名称、別名、説明、関係を比較する必要がある場合。 |
| LLM Assisted | 言語理解の補助が必要で、不確実な結果を人がレビューする場合。 |
安定したキーがある場合は rule matching を優先します。ソース間で名称、別名、説明が大きく異なる場合は semantic または LLM assisted を使います。
大規模ソースの統合
大きな運用データセットでは、対応メソッドが非同期で実行され、ソースデータをチャンク単位で読み取り、出力を対象データセットへ直接保存できます。merge_by_natural_key は、複数ソースの資産、イベント、障害、作業指示を扱う場面に適しています。
UI 上は 1 回の統合実行として表示されます。処理中は queued または running の状態が続くことがあります。完了後は実行履歴で総レコード数、照合数、競合数、保存された行数、エラーを確認します。
この方式が適する場面:
- ソース表がプレビュー型実行には大きい。
- 出力を管理対象データセットへ保存する。
- レビュアーが実行履歴、競合数、引き渡し状態を確認する。
- 予定実行またはソース更新後の再実行が必要。
Counts-only handoff
一部の統合メソッドでは、レスポンスはサマリーになり、管理対象の結果は対応するサービス経路で保存または公開されます。
| メソッド種別 | 通常の引き渡し | ユーザーが確認する場所 |
|---|---|---|
| データセットのマージまたは補完 | 出力行を対象データセットへ保存し、実行件数と競合を記録します。 | 出力データセットのプレビュー、プロファイル、lineage、レビューキュー。 |
| MDM エンティティ解決 | 候補エンティティ、別名、曖昧候補をプラットフォーム側 MDM 永続化へ渡し、実行には staged と persisted の件数を記録します。 | Master Entities、Cross-Source Aliases、Steward Queue、実行指標。 |
| 故障イベント融合 | 重複イベント候補をレビューへ送信し、実行には persisted と skipped candidate の件数を記録します。 | 故障融合候補キュー、レビュー済みイベントグループ、下流イベントデータセット。 |
統合は、管理対象結果の場所、ページングされたレビュー画面、実行指標を中心に設計します。tenant scope、監査、steward 判断、下流更新は対応するプラットフォームサービスが一貫して扱います。
ソース行フィルター
ソースによっては、特定の統合タスクの範囲外となる行があります。統合メソッドは source_row_filters を設定に持つことができ、実行時に照合前の対象ソース行を限定します。
例:
{
"source_row_filters": {
"APCM": {
"any": [
{ "field": "告警类型", "in": ["MMSG告警"] },
{ "field": "告警等级", "in": ["中高", "高"] }
]
}
}
}
フィルターはソースラベルで適用されます。一致するフィルターがないソースはそのまま処理されます。any はいずれかの条件に一致した行を残し、all はすべての条件に一致した行を残します。各条件では in または not_in を使えます。
利用前に確認します。
- 各フィルター条件の業務ルールを記録する。
- フィルター前後のソース行をサンプリングする。
- 予定タスクでは基準となる件数を再確認する。
- 監査と再確認のために元ソースデータを保持する。
導入環境では、データ責任者の承認まで source_row_filters を無効にできます。環境設定が有効でない場合、タスク派遣時にこの設定は適用されません。
公開済みルールセットと競合フィールド
融合メソッドが公開済み DFS ルールセットで動作する場合、運用中タスクを変更する前に現在のルールセットを確認します。ルールセットにはフィールド抽出、照合ルール、サバイバーシップルール、信頼度重み、ワークフローで使う AI 補助しきい値が含まれます。
競合フィールドは、業務判断を変える差分に絞ります。管理済み ID、資産種別、運転状態、重要度、バッチ文脈、設備状態、時間窓、保全対象などの構造化フィールドは、自由記述メッセージやソース固有コードよりも競合シグナルに適しています。長いメッセージ本文やソース固有コードは証跡記録に残し、レビュアーが追跡できるようにします。
統合タスクを作成する
- Data Fusion を開きます。
- Create Fusion Task を選択します。
- タスク名を入力します。
- 説明を入力します。
- 統合モードを選択します。
- 入力データセットを選択します。
- 再利用する処理ロジックがある場合はメソッドを選択します。
- 出力データセット名または出力データセットを設定します。
- 競合しきい値を設定します。
- タスクを保存します。
タスク名は業務上の出力を表す名前にします。例:点検結果と保全記録の照合、設備別名の整合、予知保全シグナル特徴量の統合。
タスクを実行する
タスク一覧または詳細ページで Run を選択します。
実行中、タスクは queued、running、completed、failed、cancelled、review のいずれかの状態になります。
開始後に確認します。
- ステータスが進んでいる。
- 実行履歴が作成されている。
- 総レコード数、照合数、競合数が想定範囲にある。
- review 状態の場合、処理すべきレビュー項目がある。
- レビュー完了後に出力データセットを下流へ渡す。
非同期実行と復旧
統合タスクはバックグラウンドで実行されます。大規模なストリーミング実行では、派遣後に結果を確認し続けるため、ユーザー操作の応答性を保てます。
サービス再起動や依存先障害により古い実行が RUNNING のまま残った場合、スケジューラは期限切れ実行を failed にし、タスクを再実行可能な状態に戻せます。担当者は実行履歴とエラーを確認し、ソースデータ、メソッド設定、容量の問題を処理してから再試行します。
再試行またはキャンセル
失敗したタスクは修正後に再試行します。入力や設定が誤っている queued または running のタスクはキャンセルできます。
再試行前に確認します。
- 入力データセットが存在しアクセスできる。
- 出力データセットへ書き込める。
- メソッドが利用可能な状態である。
source_row_filtersのソースラベルとフィールド名が正しい。- 前回のエラーが解消されている。
- レビューキューに未解決のブロック項目がない。
出力データセット
完了した出力データセットは管理対象データとして扱います。
- サンプル行をプレビューする。
- 列プロファイルを確認する。
- データ責任者を明確にする。
- レビュー後にデータセットを検証する。
- 旧データセットを置換または廃止する前に lineage と下流影響を確認する。
融合出力で管理済み ID を使う場合、出力レコードに安定した MDM エンティティ ID を含めます。たとえば信頼性ワークフローでは、正規化済みの登録番号、タグ、シリアル番号、保全対象 ID を MDM の別名台帳で解決し、そのエンティティ ID を融合イベントまたは信頼性レコードへ書き込めます。解決できない行や曖昧な行は例外として残し、データ責任者のレビューに回します。
関連ページ
| 次に読む | 利用シーン |
|---|---|
| DFS Pro データセット | コネクター、インポート、抽出、統合結果から管理済みデータ資産を作成します。 |
| データセットライフサイクル | データセットのドラフト、検証、公開、バージョン、廃止、アーカイブを管理します。 |
| レビューキュー | 低信頼結果、競合、拒否行、人の確認が必要なデータ変更を処理します。 |
| 監査とメトリクス | データセット、統合タスク、レビュー操作、同期実行、品質傾向を確認します。 |