ストレージと時系列データ境界
DFS は、管理対象データセット、現在の運用値、高頻度時系列履歴に別々のストレージ経路を使用します。顧客側デプロイ、コネクター導入、AI Engine パイプライン、BI データセット、予知保全の信号履歴を計画するときに使用します。
運用読み取りはテナント境界、再現性、追跡性を持つ必要があります。高頻度履歴は継続的な取り込みに適したストレージで扱います。
ストレージモデル
| データ種別 | 主な保存先 | 用途 |
|---|---|---|
| DFS データセットメタデータ | FactVerse バックエンドデータベース | 所有者、schema、lineage、ライフサイクル、ストレージ契約、steward 状態。 |
| マテリアライズ済みデータセット行 | バックエンド管理テーブルまたは承認済み外部ロケーション | プレビュー、プロファイル、BI クエリ、融合入力、AI Agent 証跡。 |
| DFS Lite ステージング行 | 有界ステージングテーブル | 昇格待ちのマッピング済みポイント行。 |
| 現在値 | 現在値読み取りモデル | ダッシュボード、資産コンテキスト、運用レビューで使う最新値。 |
| 有界トレンド値 | 現在値履歴モデル | 短い運用トレンド表示。 |
| 高頻度 raw telemetry | デプロイで有効化された ClickHouse | 長期 telemetry 履歴、ロールアップ、高頻度分析。 |
| パイプライン出力 | バックエンド管理のマテリアライズ契約 | AI Engine やデータパイプライン結果を管理対象データセットとして公開。 |
データセットストレージ契約
マテリアライズ済みデータセットには、行の保存場所と DFS プレビュー、プロファイル、BI クエリでの利用可否を示すストレージ契約を付与します。
| フィールド | 意味 |
|---|---|
physicalLocationType | 物理テーブル、外部 URI、メタデータのみのデータセット。 |
physicalTableName | プレビュー、プロファイル、BI が利用するテーブル。 |
physicalTableScope | テナント列付き共有テーブル、テナント専用テーブル、メタデータのみ、または未検証の既存テーブル。 |
tenantColumnName | スコープ読み取りに使うテナント列。通常は tenant_id。 |
previewEligible と profileEligible | DFS プレビューとプロファイルで読めるかどうか。 |
biEligible | BI データセットクエリで利用できるかどうか。 |
共有マテリアライズテーブルには tenant_id を含めます。テナント境界がない未検証テーブルは、分類または修復が終わるまで共有 BI と本番 AI ワークフローから外します。
現在値ライフサイクル
DFS Lite のポイント同期は、まずマッピング済み行をステージングバッファーに書き込みます。昇格処理が次を更新します。
- 最新値読み取りモデル。
- 短いトレンドウィンドウ用の現在値履歴モデル。
コネクター ID、マッピング済みエンティティ、マッピング済みフィールドが不足した行は、昇格スキップ記録として残し、ソース責任者がマッピング品質を修正できるようにします。
高頻度時系列ストレージ
継続的な telemetry 取り込みでは、高頻度ストレージ経路を計画します。ClickHouse を有効にしたデプロイでは、raw telemetry 履歴とロールアップを ClickHouse が担当し、バックエンドデータベースはメタデータ、ステージング、現在値、ガバナンス、契約を保持します。
本番導入前に次を計画します。
| 領域 | 確認事項 |
|---|---|
| 取り込みレート | 予想 events/sec、平均 bytes/event、バースト、ソーススケジュール。 |
| 保持 | raw、minute/hour/day ロールアップ、顧客保持ポリシー、バックアップ範囲。 |
| キュー | pending、retry、sent、dead-letter の処理。 |
| 負荷予算 | 48 時間の予想増加量が承認済みストレージ予算に収まるか。 |
| テナント分離 | テナントスコープのクエリ、negative read check、DB ロール境界。 |
| 運用 | 監視、ストレージ増加アラート、リプレイ手順、インシデント終了証跡。 |
高頻度 telemetry ソースは、予定同期を有効にする前に負荷ゲートを通します。ゲートが失敗した場合は、ソース契約、スロットリング、ロールアップ、保持期間、容量を調整してから本番利用します。
パイプライン出力のマテリアライズ
AI Engine とデータパイプラインの出力を管理対象データセットにする場合、バックエンド管理のマテリアライズ契約を通して公開します。契約には pipeline、run、node、テナント、行数、列 schema、ストレージ契約、バックエンドが返す下流データセットまたは warehouse 参照を含めます。
これにより、データセットライフサイクル、BI 利用可否、テナントスコープ、監査所有権をプラットフォーム層に保持できます。
検証チェックリスト
- プレビュー、プロファイル、BI、AI Agent で使うマテリアライズ済みデータセットにストレージ契約がある。
- 共有物理テーブルに契約で必要なテナント列がある。
- 未検証の既存テーブルを共有 BI と本番 AI ワークフローに入れていない。
- 現在値とトレンド読み取りが昇格済み読み取りモデルを使う。
- 高頻度 telemetry にストレージ責任者、保持ポリシー、永続キュー、負荷予算チェックがある。
- dead-letter telemetry 行に運用レビューとリプレイ手順がある。
- 管理対象データセットになる AI Engine 出力がバックエンド管理のマテリアライズ契約を使う。