容量規劃
容量規劃用於在生產上線前確認客戶可控 FactVerse 環境需要的資源。本頁適用於 Kubernetes、OpenShift、客戶虛擬機或受限網路中的私有化容器部署。
以下數值是客戶側部署的初始規劃區間。最終值應結合交付包、啟用模組、使用者並發、資產規模、連接器計畫、留存策略和客戶基礎設施標準完成驗證。
前提條件
先完成部署模型和容器執行時決策。確認產品模組範圍、環境數量、身分方式、來源系統、預期使用者、客戶端設備、資料留存策略、備份目標、監控平台和變更審核流程。
容量規劃流程
產品部署單元
映像名稱和 chart 名稱由專案交付包提供。使用下表理解通常需要獨立做容量規劃的部署單元。
| 產品範圍 | 典型部署單元 | 容量驅動因素 |
|---|---|---|
| FactVerse Platform 基線 | Web 控制台、API gateway、租戶與身分服務、資產 metadata 服務、資料庫、快取或佇列、物件儲存、入口。 | 並發使用者、資產 metadata 量、API 呼叫、驗證流量、物件儲存成長。 |
| DataMesh Inspector | Inspector API、工單與巡檢服務、證據上傳服務、通知任務、可選 DFS 連接器 worker、ECM 證據儲存。 | 現場使用者、巡檢記錄、圖片或影片證據、工單同步、行動端上傳峰值。 |
| Data Fusion Services | DFS API、連接器控制器、連接器 worker、映射與品質任務、排程器、佇列、連接器日誌。 | 連接器數量、同步頻率、批量規模、來源系統限制、重試率、品質規則數量。 |
| FactVerse AI Agent | Agent API、工作流程編排器、工具執行 worker、檢索或索引服務、審批佇列、稽核記錄。 | 工作流程並發、工具呼叫量、文件檢索、定時自動化、人工審批積壓。 |
| 企業內容管理 | ECM API、文件服務、搜尋或索引服務、物件儲存、審批工作流程任務。 | 文件數量、文件大小、留存週期、審批活動、搜尋頻率。 |
| Designer、資產準備與 Physical AI | 資產服務、模型轉換 worker、模擬或渲染 worker、worker scratch 儲存、可選 GPU worker。 | 最大模型規模、轉換頻率、模擬任務、SimReady asset 準備、渲染或物理工作負載。 |
| 客戶端應用 | Web 存取、桌面客戶端、行動客戶端、混合實境設備、現場快取。 | 下載大小、站點頻寬、設備快取行為、更新頻率、離線包要求。 |
初始容器 sizing
以下數值按單個副本或單個 worker 計算,表格另有說明時除外。用 request 做排程規劃,用 limit 保護節點。limit 應在驗證負載後再調高。
| 部署單元 | 初始 request | 初始 limit | 副本或 worker | I/O 與儲存說明 |
|---|---|---|---|---|
| Web 控制台或靜態前端 | 0.1-0.25 vCPU,256-512 MiB | 0.5 vCPU,1 GiB | 生產環境 2 個副本。 | 磁碟 I/O 很低。條件允許時在入口或客戶 CDN 快取靜態資源。 |
| API gateway 與輕量 API | 0.5-1 vCPU,1-2 GiB | 2 vCPU,4 GiB | 生產環境 2 個副本。 | 關注 p95 延遲、錯誤率和連接池使用。 |
| 產品 API 服務 | 1 vCPU,2-4 GiB | 4 vCPU,8 GiB | 生產環境 2 個副本,高並發時增加。 | 對資料庫延遲和物件儲存存取敏感。 |
| 租戶、身分與管理服務 | 0.5 vCPU,1-2 GiB | 2 vCPU,4 GiB | 生產環境 2 個副本。 | 在故障切換測試中保持 SSO 回呼和 session 行為穩定。 |
| DFS 連接器 worker | 0.5-2 vCPU,1-4 GiB | 4 vCPU,8 GiB | 每個連接器組或同步窗口先規劃 1 個 worker。 | 批量規模和來源系統延遲通常是主要瓶頸。避免大型同步任務重疊。 |
| AI Agent 工作流程 worker | 1-2 vCPU,4-8 GiB | 4 vCPU,16 GiB | 啟用定時工作流程時先規劃 2 個 worker。 | 佇列深度、工具呼叫延遲、檢索延遲和審批積壓驅動擴容。 |
| ECM 文件與搜尋服務 | 1-2 vCPU,2-8 GiB | 4 vCPU,16 GiB | API 2 個副本;索引服務單獨 sizing。 | 搜尋索引需要快速持久化儲存和記憶體餘量。 |
| 模型轉換或資產處理 worker | 2-4 vCPU,8-16 GiB | 8 vCPU,24-32 GiB | 先規劃 1-2 個 worker;重資產場景建議與 API 節點隔離。 | 使用快速本地 scratch 儲存。大模型會帶來記憶體和暫存磁碟峰值。 |
| 模擬、渲染或 Physical AI worker | 4-8 vCPU,16-32 GiB | 16 vCPU,64 GiB | 按專案工作負載 sizing。交付包要求時增加 GPU 節點。 | 需要獨立 scratch 儲存和更長驗證執行。 |
| 快取或佇列 | 1-2 vCPU,2-4 GiB | 4 vCPU,8 GiB | 生產環境應使用客戶批准的 HA 型態。 | 監控佇列深度、記憶體淘汰和持久化模式。 |
| Ingress controller | 0.5-1 vCPU,512 MiB-2 GiB | 2 vCPU,4 GiB | 叢集策略允許時至少 2 個副本。 | 按 TLS 終止、上傳大小和客戶端下載峰值 sizing。 |
環境 sizing 檔位
以下檔位用於客戶側初始規劃。它們是叢集或環境級參考,不能替代版本交付包中的 values 文件。
| 檔位 | 典型用途 | 計算基線 | 資料服務 | 儲存與 I/O 基線 |
|---|---|---|---|---|
| 單節點驗證 | 實驗室驗證、培訓、配置審查、問題重現。 | 單台 VM 或節點 8-12 vCPU,32-48 GiB RAM。 | 本地或客戶提供的資料庫和快取。 | 300-500 GiB SSD。僅用於驗證。 |
| 小型生產 | 單站點、中等使用者、有限連接器、標準 Inspector 或 ECM 工作負載。 | 3 個 worker 節點,每個 8 vCPU、32 GiB RAM,control-plane 按客戶標準。 | PostgreSQL 4 vCPU、16 GiB RAM;快取或佇列 2 vCPU、4 GiB RAM。 | 資料庫 SSD 至少 3,000 IOPS;物件儲存 1-2 TiB;worker scratch 100-200 GiB。 |
| 標準生產 | 多站點或多部門、常規 DFS 同步、AI Agent 工作流程、文件和證據留存。 | 3-5 個 worker 節點,每個 16 vCPU、64 GiB RAM。 | PostgreSQL 8 vCPU、32 GiB RAM;快取或佇列 4 vCPU、8 GiB RAM;啟用搜尋時搜尋服務 4 vCPU、16 GiB RAM。 | 資料庫 SSD 6,000-10,000 IOPS;物件儲存 2-5 TiB;worker scratch 300-500 GiB。 |
| 資產重或 Physical AI | 大模型、頻繁轉換、模擬、渲染、SimReady asset 準備、機器人訓練場景。 | 標準生產基礎上增加專用 worker 節點,16-32 vCPU、64-128 GiB RAM。僅在需要時增加 GPU 節點。 | PostgreSQL 8-16 vCPU、32-64 GiB RAM;啟用檢索時單獨規劃搜尋或索引容量。 | 資料庫 SSD 10,000+ IOPS;物件儲存 5 TiB 以上;scratch 儲存 500 GiB 以上並具備較高順序吞吐。 |
| 高管控環境 | 受限網路、離線包匯入、嚴格留存、驗證和生產路徑分離。 | 生產和驗證環境分別 sizing。保留離線升級驗證餘量。 | 客戶管理的 HA 資料庫、快取或佇列、內部映像倉庫、備份平台。 | 增加映像歸檔、復原抽樣、日誌和 release bundle 的空間。 |
儲存與 I/O 建議
| 儲存區域 | 推薦類型 | 規劃建議 | 監控項 |
|---|---|---|---|
| 資料庫卷 | SSD 或高效能區塊儲存。 | 按 sizing 檔位選擇 IOPS。為空間索引、遷移、備份暫存和復原測試保留餘量。 | IOPS 飽和、延遲、慢查詢、鎖等待、連接壓力。 |
| 物件儲存 | 客戶物件儲存或 S3 相容服務。 | 容量應覆蓋來源文件、轉換資產、文件、證據、生成報告、保留版本和生命週期緩衝。 | 成長率、大物件延遲、上傳失敗、生命週期清理、復原抽樣。 |
| Worker scratch | 快速本地 SSD 或高吞吐暫存卷。 | 模型轉換和模擬 worker 需要獨立暫存空間。按最大模型和派生文件估算 scratch。 | 暫存磁碟壓力、轉換時長、worker 驅逐、失敗任務。 |
| 搜尋或索引卷 | SSD 持久卷。 | 記憶體和磁碟一起規劃。重建時間應落在維護窗口內。 | 查詢延遲、索引大小、重建時間、記憶體壓力。 |
| 日誌與稽核記錄 | 客戶日誌平台或持久化儲存。 | 按留存策略和匯出量 sizing。高管控專案通常需要獨立稽核留存。 | 日誌成長、日誌遺失、留存壓力、查詢時間。 |
| 備份目標 | 客戶備份平台或物件儲存層。 | 備份吞吐必須滿足維護窗口。包含資料庫、物件儲存、配置和 release 證據。 | 備份時長、備份失敗、復原時長、受保護資產清單不完整。 |
I/O 規劃規則
- 資料庫卷使用延遲穩定的 SSD 級儲存。
- 物件儲存面向大文件順序上傳和下載最佳化。
- 模型轉換和模擬 worker 使用獨立 scratch 儲存,避免暫存文件與資料庫 I/O 競爭。
- 小型環境中,大型 DFS 同步、模型轉換、備份和搜尋重建應分開窗口執行。
- 按資料類型追蹤儲存成長:模型、轉換資產、文件、巡檢證據、日誌、資料庫和備份。
- 接受容量基線前,驗證計畫中應包含至少一次復原抽樣。
輸入項
| 輸入 | 需要確認的內容 | 容量影響 |
|---|---|---|
| 環境 | 生產、驗證、培訓、災備和實驗室環境。 | 決定叢集、虛擬機、儲存、備份和監控的總體規模。 |
| 使用者工作負載 | 命名使用者、活躍使用者、峰值並發 session、使用者群組、站點時區、客戶端類型。 | 影響 Web/API 副本、session 負載、網路吞吐和支援窗口。 |
| 場景與資產工作負載 | 場景數量、最大模型規模、模型轉換頻率、媒體文件、下載、現場設備快取行為。 | 影響物件儲存、模型處理 worker、快取和備份容量。 |
| DFS 與整合工作負載 | 來源系統、連接器數量、同步頻率、批量規模、重試策略、回寫要求。 | 影響連接器 worker、佇列深度、資料庫 I/O、網路路徑和來源系統限制。 |
| AI Agent 工作負載 | 工作流程並發、工具呼叫量、文件檢索、定時自動化、審批佇列。 | 影響 worker 並發、佇列容量、資料庫負載和可選私有推理容量。 |
| 模擬或 Physical AI 工作負載 | 專案範圍內的模擬任務、資產準備、渲染、物理驗證、機器人或培訓場景。 | 可能需要獨立 worker 節點、GPU 節點、更大儲存和更長驗證窗口。 |
| ECM 與證據工作負載 | 文件、SOP、圖片、巡檢證據、稽核記錄、留存週期。 | 影響物件儲存、資料庫記錄、索引規模、備份窗口和復原測試範圍。 |
| 維運策略 | 可用性目標、維護窗口、日誌留存、備份頻率、復原目標。 | 影響冗餘、監控、日誌儲存、備份基礎設施和復原流程。 |
規劃步驟
- 選擇匹配產品範圍和預期工作負載的 sizing 檔位。
- 將啟用產品對應到部署單元,並識別需要專用 worker 的單元。
- 填寫使用者、場景、資產、整合、AI Agent 工作流程、ECM 文件和留存要求的 sizing 工作表。
- 定義 CPU request、記憶體 request、limit、副本數、儲存類別、持久卷和 namespace 配額。
- 定義資料庫 IOPS、物件儲存容量、worker scratch 大小、搜尋索引大小、日誌留存和備份目標吞吐。
- 區分穩定負載和突發負載,例如模型轉換、定時同步、批量匯入、搜尋索引和模擬任務。
- 定義副本擴展、worker 數量、儲存擴展、資料庫調優、連接器計畫和備份窗口的觸發條件。
- 使用代表性使用者、來源記錄、場景、文件和客戶端設備執行驗證負載。
- 記錄容量基線、已知假設、餘量、複核週期和每個資源域的負責人。
Sizing 工作表
| 工作表項 | 記錄內容 |
|---|---|
| 峰值並發使用者 | 業務峰值、站點峰值、客戶端類型、預期成長、驗證樣例。 |
| 最大營運場景 | 場景規模、資產數量、媒體數量、目標設備、下載行為。 |
| 整合計畫 | 來源系統、同步頻率、批量規模、允許窗口、重試策略。 |
| AI Agent 並發 | 工作流程類型、定時執行、人工觸發、工具呼叫量、審批佇列。 |
| 儲存成長 | 物件儲存成長、資料庫成長、日誌成長、留存週期。 |
| 備份與復原 | 備份頻率、備份窗口、復原目標、復原抽樣集合。 |
| 高可用 | 副本策略、節點分布、資料庫可用性型態、維護窗口。 |
| 可選 GPU 工作負載 | 模擬、渲染、模型處理、私有推理、驗證時長。 |
驗證清單
- 代表性使用者可以在預期峰值窗口完成目標工作流程。
- 連接器任務可以在批准的同步窗口內完成。
- 模型轉換、資產載入和文件存取達到驗收預期。
- AI Agent 工作流程和審批佇列沒有形成不可控積壓。
- 資料庫、佇列、快取和物件儲存指標保持在約定運行範圍內。
- 備份可以在批准窗口內完成,並且復原抽樣成功。
- CPU、記憶體、Pod 重啟、佇列積壓、資料庫連接壓力、儲存成長和備份失敗都有告警。
- 客戶負責人已批准容量基線和複核週期。
預期結果
預期產出是一份容量基線,包含產品部署單元、工作負載假設、初始資源 request 與 limit、資料庫和儲存 I/O 假設、備份估算、擴容觸發條件、驗證證據,以及未來容量複核的負責人。
常見容量問題
| 現象 | 檢查 |
|---|---|
| 使用者在峰值時段回饋頁面慢 | 並發 session、入口容量、API 副本、資料庫延遲、快取命中率。 |
| 連接器任務錯過同步窗口 | 來源系統限制、批量規模、worker 數量、佇列深度、重試策略、網路路徑。 |
| 模型或資產任務耗時過長 | worker 資源、資產規模、儲存吞吐、轉換佇列、是否需要可選 GPU worker。 |
| 儲存成長快於預期 | 留存策略、重複上傳、日誌留存、匯入文件生命週期、備份副本。 |
| 備份超出維護窗口 | 受保護資產清單、物件儲存容量、資料庫大小、備份目標吞吐、計畫安排。 |
| 資源 request 阻塞部署 | namespace 配額、節點容量、儲存類別可用性、OpenShift project 限制、叢集策略。 |