ストレージと時系列データ境界

DFS は、管理対象データセット、現在の運用値、高頻度時系列履歴に別々のストレージ経路を使用します。顧客側デプロイ、コネクター導入、AI Engine パイプライン、BI データセット、予知保全の信号履歴を計画するときに使用します。

運用読み取りはテナント境界、再現性、追跡性を持つ必要があります。高頻度履歴は継続的な取り込みに適したストレージで扱います。

ストレージモデル

データ種別	主な保存先	用途
DFS データセットメタデータ	FactVerse バックエンドデータベース	所有者、schema、lineage、ライフサイクル、ストレージ契約、steward 状態。
マテリアライズ済みデータセット行	バックエンド管理テーブルまたは承認済み外部ロケーション	プレビュー、プロファイル、BI クエリ、融合入力、AI Agent 証跡。
DFS Lite ステージング行	有界ステージングテーブル	昇格待ちのマッピング済みポイント行。
現在値	現在値読み取りモデル	ダッシュボード、資産コンテキスト、運用レビューで使う最新値。
有界トレンド値	現在値履歴モデル	短い運用トレンド表示。
高頻度 raw telemetry	デプロイで有効化された ClickHouse	長期 telemetry 履歴、ロールアップ、高頻度分析。
パイプライン出力	バックエンド管理のマテリアライズ契約	AI Engine やデータパイプライン結果を管理対象データセットとして公開。

データセットストレージ契約

マテリアライズ済みデータセットには、行の保存場所と DFS プレビュー、プロファイル、BI クエリでの利用可否を示すストレージ契約を付与します。

フィールド	意味
`physicalLocationType`	物理テーブル、外部 URI、メタデータのみのデータセット。
`physicalTableName`	プレビュー、プロファイル、BI が利用するテーブル。
`physicalTableScope`	テナント列付き共有テーブル、テナント専用テーブル、メタデータのみ、または未検証の既存テーブル。
`tenantColumnName`	スコープ読み取りに使うテナント列。通常は `tenant_id`。
`previewEligible` と `profileEligible`	DFS プレビューとプロファイルで読めるかどうか。
`biEligible`	BI データセットクエリで利用できるかどうか。

共有マテリアライズテーブルには tenant_id を含めます。テナント境界がない未検証テーブルは、分類または修復が終わるまで共有 BI と本番 AI ワークフローから外します。

現在値ライフサイクル

DFS Lite のポイント同期は、まずマッピング済み行をステージングバッファーに書き込みます。昇格処理が次を更新します。

最新値読み取りモデル。
短いトレンドウィンドウ用の現在値履歴モデル。

コネクター ID、マッピング済みエンティティ、マッピング済みフィールドが不足した行は、昇格スキップ記録として残し、ソース責任者がマッピング品質を修正できるようにします。

高頻度時系列ストレージ

継続的な telemetry 取り込みでは、高頻度ストレージ経路を計画します。ClickHouse を有効にしたデプロイでは、raw telemetry 履歴とロールアップを ClickHouse が担当し、バックエンドデータベースはメタデータ、ステージング、現在値、ガバナンス、契約を保持します。

本番導入前に次を計画します。

領域	確認事項
取り込みレート	予想 events/sec、平均 bytes/event、バースト、ソーススケジュール。
保持	raw、minute/hour/day ロールアップ、顧客保持ポリシー、バックアップ範囲。
キュー	pending、retry、sent、dead-letter の処理。
負荷予算	48 時間の予想増加量が承認済みストレージ予算に収まるか。
テナント分離	テナントスコープのクエリ、negative read check、DB ロール境界。
運用	監視、ストレージ増加アラート、リプレイ手順、インシデント終了証跡。

高頻度 telemetry ソースは、予定同期を有効にする前に負荷ゲートを通します。ゲートが失敗した場合は、ソース契約、スロットリング、ロールアップ、保持期間、容量を調整してから本番利用します。

パイプライン出力のマテリアライズ

AI Engine とデータパイプラインの出力を管理対象データセットにする場合、バックエンド管理のマテリアライズ契約を通して公開します。契約には pipeline、run、node、テナント、行数、列 schema、ストレージ契約、バックエンドが返す下流データセットまたは warehouse 参照を含めます。

これにより、データセットライフサイクル、BI 利用可否、テナントスコープ、監査所有権をプラットフォーム層に保持できます。

検証チェックリスト

プレビュー、プロファイル、BI、AI Agent で使うマテリアライズ済みデータセットにストレージ契約がある。
共有物理テーブルに契約で必要なテナント列がある。
未検証の既存テーブルを共有 BI と本番 AI ワークフローに入れていない。
現在値とトレンド読み取りが昇格済み読み取りモデルを使う。
高頻度 telemetry にストレージ責任者、保持ポリシー、永続キュー、負荷予算チェックがある。
dead-letter telemetry 行に運用レビューとリプレイ手順がある。
管理対象データセットになる AI Engine 出力がバックエンド管理のマテリアライズ契約を使う。

ストレージモデル​

データセットストレージ契約​

現在値ライフサイクル​

高頻度時系列ストレージ​

パイプライン出力のマテリアライズ​

検証チェックリスト​

関連ドキュメント​