メインコンテンツまでスキップ

ストレージと時系列データ境界

DFS は、管理対象データセット、現在の運用値、高頻度時系列履歴に別々のストレージ経路を使用します。顧客側デプロイ、コネクター導入、AI Engine パイプライン、BI データセット、予知保全の信号履歴を計画するときに使用します。

運用読み取りはテナント境界、再現性、追跡性を持つ必要があります。高頻度履歴は継続的な取り込みに適したストレージで扱います。

ストレージモデル

データ種別主な保存先用途
DFS データセットメタデータFactVerse バックエンドデータベース所有者、schema、lineage、ライフサイクル、ストレージ契約、steward 状態。
マテリアライズ済みデータセット行バックエンド管理テーブルまたは承認済み外部ロケーションプレビュー、プロファイル、BI クエリ、融合入力、AI Agent 証跡。
DFS Lite ステージング行有界ステージングテーブル昇格待ちのマッピング済みポイント行。
現在値現在値読み取りモデルダッシュボード、資産コンテキスト、運用レビューで使う最新値。
有界トレンド値現在値履歴モデル短い運用トレンド表示。
高頻度 raw telemetryデプロイで有効化された ClickHouse長期 telemetry 履歴、ロールアップ、高頻度分析。
パイプライン出力バックエンド管理のマテリアライズ契約AI Engine やデータパイプライン結果を管理対象データセットとして公開。

データセットストレージ契約

マテリアライズ済みデータセットには、行の保存場所と DFS プレビュー、プロファイル、BI クエリでの利用可否を示すストレージ契約を付与します。

フィールド意味
physicalLocationType物理テーブル、外部 URI、メタデータのみのデータセット。
physicalTableNameプレビュー、プロファイル、BI が利用するテーブル。
physicalTableScopeテナント列付き共有テーブル、テナント専用テーブル、メタデータのみ、または未検証の既存テーブル。
tenantColumnNameスコープ読み取りに使うテナント列。通常は tenant_id
previewEligibleprofileEligibleDFS プレビューとプロファイルで読めるかどうか。
biEligibleBI データセットクエリで利用できるかどうか。

共有マテリアライズテーブルには tenant_id を含めます。テナント境界がない未検証テーブルは、分類または修復が終わるまで共有 BI と本番 AI ワークフローから外します。

現在値ライフサイクル

DFS Lite のポイント同期は、まずマッピング済み行をステージングバッファーに書き込みます。昇格処理が次を更新します。

  • 最新値読み取りモデル。
  • 短いトレンドウィンドウ用の現在値履歴モデル。

コネクター ID、マッピング済みエンティティ、マッピング済みフィールドが不足した行は、昇格スキップ記録として残し、ソース責任者がマッピング品質を修正できるようにします。

高頻度時系列ストレージ

継続的な telemetry 取り込みでは、高頻度ストレージ経路を計画します。ClickHouse を有効にしたデプロイでは、raw telemetry 履歴とロールアップを ClickHouse が担当し、バックエンドデータベースはメタデータ、ステージング、現在値、ガバナンス、契約を保持します。

本番導入前に次を計画します。

領域確認事項
取り込みレート予想 events/sec、平均 bytes/event、バースト、ソーススケジュール。
保持raw、minute/hour/day ロールアップ、顧客保持ポリシー、バックアップ範囲。
キューpending、retry、sent、dead-letter の処理。
負荷予算48 時間の予想増加量が承認済みストレージ予算に収まるか。
テナント分離テナントスコープのクエリ、negative read check、DB ロール境界。
運用監視、ストレージ増加アラート、リプレイ手順、インシデント終了証跡。

高頻度 telemetry ソースは、予定同期を有効にする前に負荷ゲートを通します。ゲートが失敗した場合は、ソース契約、スロットリング、ロールアップ、保持期間、容量を調整してから本番利用します。

パイプライン出力のマテリアライズ

AI Engine とデータパイプラインの出力を管理対象データセットにする場合、バックエンド管理のマテリアライズ契約を通して公開します。契約には pipeline、run、node、テナント、行数、列 schema、ストレージ契約、バックエンドが返す下流データセットまたは warehouse 参照を含めます。

これにより、データセットライフサイクル、BI 利用可否、テナントスコープ、監査所有権をプラットフォーム層に保持できます。

検証チェックリスト

  • プレビュー、プロファイル、BI、AI Agent で使うマテリアライズ済みデータセットにストレージ契約がある。
  • 共有物理テーブルに契約で必要なテナント列がある。
  • 未検証の既存テーブルを共有 BI と本番 AI ワークフローに入れていない。
  • 現在値とトレンド読み取りが昇格済み読み取りモデルを使う。
  • 高頻度 telemetry にストレージ責任者、保持ポリシー、永続キュー、負荷予算チェックがある。
  • dead-letter telemetry 行に運用レビューとリプレイ手順がある。
  • 管理対象データセットになる AI Engine 出力がバックエンド管理のマテリアライズ契約を使う。

関連ドキュメント