跳至主要内容

容量規劃

容量規劃用於在生產上線前確認客戶可控 FactVerse 環境需要的資源。本頁適用於 Kubernetes、OpenShift、客戶虛擬機或受限網路中的私有化容器部署。

以下數值是客戶側部署的初始規劃區間。最終值應結合交付包、啟用模組、使用者並發、資產規模、連接器計畫、留存策略和客戶基礎設施標準完成驗證。

前提條件

先完成部署模型和容器執行時決策。確認產品模組範圍、環境數量、身分方式、來源系統、預期使用者、客戶端設備、資料留存策略、備份目標、監控平台和變更審核流程。

容量規劃流程

產品部署單元

映像名稱和 chart 名稱由專案交付包提供。使用下表理解通常需要獨立做容量規劃的部署單元。

產品範圍典型部署單元容量驅動因素
FactVerse Platform 基線Web 控制台、API gateway、租戶與身分服務、資產 metadata 服務、資料庫、快取或佇列、物件儲存、入口。並發使用者、資產 metadata 量、API 呼叫、驗證流量、物件儲存成長。
DataMesh InspectorInspector API、工單與巡檢服務、證據上傳服務、通知任務、可選 DFS 連接器 worker、ECM 證據儲存。現場使用者、巡檢記錄、圖片或影片證據、工單同步、行動端上傳峰值。
Data Fusion ServicesDFS API、連接器控制器、連接器 worker、映射與品質任務、排程器、佇列、連接器日誌。連接器數量、同步頻率、批量規模、來源系統限制、重試率、品質規則數量。
FactVerse AI AgentAgent API、工作流程編排器、工具執行 worker、檢索或索引服務、審批佇列、稽核記錄。工作流程並發、工具呼叫量、文件檢索、定時自動化、人工審批積壓。
企業內容管理ECM API、文件服務、搜尋或索引服務、物件儲存、審批工作流程任務。文件數量、文件大小、留存週期、審批活動、搜尋頻率。
Designer、資產準備與 Physical AI資產服務、模型轉換 worker、模擬或渲染 worker、worker scratch 儲存、可選 GPU worker。最大模型規模、轉換頻率、模擬任務、SimReady asset 準備、渲染或物理工作負載。
客戶端應用Web 存取、桌面客戶端、行動客戶端、混合實境設備、現場快取。下載大小、站點頻寬、設備快取行為、更新頻率、離線包要求。

初始容器 sizing

以下數值按單個副本或單個 worker 計算,表格另有說明時除外。用 request 做排程規劃,用 limit 保護節點。limit 應在驗證負載後再調高。

部署單元初始 request初始 limit副本或 workerI/O 與儲存說明
Web 控制台或靜態前端0.1-0.25 vCPU,256-512 MiB0.5 vCPU,1 GiB生產環境 2 個副本。磁碟 I/O 很低。條件允許時在入口或客戶 CDN 快取靜態資源。
API gateway 與輕量 API0.5-1 vCPU,1-2 GiB2 vCPU,4 GiB生產環境 2 個副本。關注 p95 延遲、錯誤率和連接池使用。
產品 API 服務1 vCPU,2-4 GiB4 vCPU,8 GiB生產環境 2 個副本,高並發時增加。對資料庫延遲和物件儲存存取敏感。
租戶、身分與管理服務0.5 vCPU,1-2 GiB2 vCPU,4 GiB生產環境 2 個副本。在故障切換測試中保持 SSO 回呼和 session 行為穩定。
DFS 連接器 worker0.5-2 vCPU,1-4 GiB4 vCPU,8 GiB每個連接器組或同步窗口先規劃 1 個 worker。批量規模和來源系統延遲通常是主要瓶頸。避免大型同步任務重疊。
AI Agent 工作流程 worker1-2 vCPU,4-8 GiB4 vCPU,16 GiB啟用定時工作流程時先規劃 2 個 worker。佇列深度、工具呼叫延遲、檢索延遲和審批積壓驅動擴容。
ECM 文件與搜尋服務1-2 vCPU,2-8 GiB4 vCPU,16 GiBAPI 2 個副本;索引服務單獨 sizing。搜尋索引需要快速持久化儲存和記憶體餘量。
模型轉換或資產處理 worker2-4 vCPU,8-16 GiB8 vCPU,24-32 GiB先規劃 1-2 個 worker;重資產場景建議與 API 節點隔離。使用快速本地 scratch 儲存。大模型會帶來記憶體和暫存磁碟峰值。
模擬、渲染或 Physical AI worker4-8 vCPU,16-32 GiB16 vCPU,64 GiB按專案工作負載 sizing。交付包要求時增加 GPU 節點。需要獨立 scratch 儲存和更長驗證執行。
快取或佇列1-2 vCPU,2-4 GiB4 vCPU,8 GiB生產環境應使用客戶批准的 HA 型態。監控佇列深度、記憶體淘汰和持久化模式。
Ingress controller0.5-1 vCPU,512 MiB-2 GiB2 vCPU,4 GiB叢集策略允許時至少 2 個副本。按 TLS 終止、上傳大小和客戶端下載峰值 sizing。

環境 sizing 檔位

以下檔位用於客戶側初始規劃。它們是叢集或環境級參考,不能替代版本交付包中的 values 文件。

檔位典型用途計算基線資料服務儲存與 I/O 基線
單節點驗證實驗室驗證、培訓、配置審查、問題重現。單台 VM 或節點 8-12 vCPU,32-48 GiB RAM。本地或客戶提供的資料庫和快取。300-500 GiB SSD。僅用於驗證。
小型生產單站點、中等使用者、有限連接器、標準 Inspector 或 ECM 工作負載。3 個 worker 節點,每個 8 vCPU、32 GiB RAM,control-plane 按客戶標準。PostgreSQL 4 vCPU、16 GiB RAM;快取或佇列 2 vCPU、4 GiB RAM。資料庫 SSD 至少 3,000 IOPS;物件儲存 1-2 TiB;worker scratch 100-200 GiB。
標準生產多站點或多部門、常規 DFS 同步、AI Agent 工作流程、文件和證據留存。3-5 個 worker 節點,每個 16 vCPU、64 GiB RAM。PostgreSQL 8 vCPU、32 GiB RAM;快取或佇列 4 vCPU、8 GiB RAM;啟用搜尋時搜尋服務 4 vCPU、16 GiB RAM。資料庫 SSD 6,000-10,000 IOPS;物件儲存 2-5 TiB;worker scratch 300-500 GiB。
資產重或 Physical AI大模型、頻繁轉換、模擬、渲染、SimReady asset 準備、機器人訓練場景。標準生產基礎上增加專用 worker 節點,16-32 vCPU、64-128 GiB RAM。僅在需要時增加 GPU 節點。PostgreSQL 8-16 vCPU、32-64 GiB RAM;啟用檢索時單獨規劃搜尋或索引容量。資料庫 SSD 10,000+ IOPS;物件儲存 5 TiB 以上;scratch 儲存 500 GiB 以上並具備較高順序吞吐。
高管控環境受限網路、離線包匯入、嚴格留存、驗證和生產路徑分離。生產和驗證環境分別 sizing。保留離線升級驗證餘量。客戶管理的 HA 資料庫、快取或佇列、內部映像倉庫、備份平台。增加映像歸檔、復原抽樣、日誌和 release bundle 的空間。

儲存與 I/O 建議

儲存區域推薦類型規劃建議監控項
資料庫卷SSD 或高效能區塊儲存。按 sizing 檔位選擇 IOPS。為空間索引、遷移、備份暫存和復原測試保留餘量。IOPS 飽和、延遲、慢查詢、鎖等待、連接壓力。
物件儲存客戶物件儲存或 S3 相容服務。容量應覆蓋來源文件、轉換資產、文件、證據、生成報告、保留版本和生命週期緩衝。成長率、大物件延遲、上傳失敗、生命週期清理、復原抽樣。
Worker scratch快速本地 SSD 或高吞吐暫存卷。模型轉換和模擬 worker 需要獨立暫存空間。按最大模型和派生文件估算 scratch。暫存磁碟壓力、轉換時長、worker 驅逐、失敗任務。
搜尋或索引卷SSD 持久卷。記憶體和磁碟一起規劃。重建時間應落在維護窗口內。查詢延遲、索引大小、重建時間、記憶體壓力。
日誌與稽核記錄客戶日誌平台或持久化儲存。按留存策略和匯出量 sizing。高管控專案通常需要獨立稽核留存。日誌成長、日誌遺失、留存壓力、查詢時間。
備份目標客戶備份平台或物件儲存層。備份吞吐必須滿足維護窗口。包含資料庫、物件儲存、配置和 release 證據。備份時長、備份失敗、復原時長、受保護資產清單不完整。

I/O 規劃規則

  • 資料庫卷使用延遲穩定的 SSD 級儲存。
  • 物件儲存面向大文件順序上傳和下載最佳化。
  • 模型轉換和模擬 worker 使用獨立 scratch 儲存,避免暫存文件與資料庫 I/O 競爭。
  • 小型環境中,大型 DFS 同步、模型轉換、備份和搜尋重建應分開窗口執行。
  • 按資料類型追蹤儲存成長:模型、轉換資產、文件、巡檢證據、日誌、資料庫和備份。
  • 接受容量基線前,驗證計畫中應包含至少一次復原抽樣。

輸入項

輸入需要確認的內容容量影響
環境生產、驗證、培訓、災備和實驗室環境。決定叢集、虛擬機、儲存、備份和監控的總體規模。
使用者工作負載命名使用者、活躍使用者、峰值並發 session、使用者群組、站點時區、客戶端類型。影響 Web/API 副本、session 負載、網路吞吐和支援窗口。
場景與資產工作負載場景數量、最大模型規模、模型轉換頻率、媒體文件、下載、現場設備快取行為。影響物件儲存、模型處理 worker、快取和備份容量。
DFS 與整合工作負載來源系統、連接器數量、同步頻率、批量規模、重試策略、回寫要求。影響連接器 worker、佇列深度、資料庫 I/O、網路路徑和來源系統限制。
AI Agent 工作負載工作流程並發、工具呼叫量、文件檢索、定時自動化、審批佇列。影響 worker 並發、佇列容量、資料庫負載和可選私有推理容量。
模擬或 Physical AI 工作負載專案範圍內的模擬任務、資產準備、渲染、物理驗證、機器人或培訓場景。可能需要獨立 worker 節點、GPU 節點、更大儲存和更長驗證窗口。
ECM 與證據工作負載文件、SOP、圖片、巡檢證據、稽核記錄、留存週期。影響物件儲存、資料庫記錄、索引規模、備份窗口和復原測試範圍。
維運策略可用性目標、維護窗口、日誌留存、備份頻率、復原目標。影響冗餘、監控、日誌儲存、備份基礎設施和復原流程。

規劃步驟

  1. 選擇匹配產品範圍和預期工作負載的 sizing 檔位。
  2. 將啟用產品對應到部署單元,並識別需要專用 worker 的單元。
  3. 填寫使用者、場景、資產、整合、AI Agent 工作流程、ECM 文件和留存要求的 sizing 工作表。
  4. 定義 CPU request、記憶體 request、limit、副本數、儲存類別、持久卷和 namespace 配額。
  5. 定義資料庫 IOPS、物件儲存容量、worker scratch 大小、搜尋索引大小、日誌留存和備份目標吞吐。
  6. 區分穩定負載和突發負載,例如模型轉換、定時同步、批量匯入、搜尋索引和模擬任務。
  7. 定義副本擴展、worker 數量、儲存擴展、資料庫調優、連接器計畫和備份窗口的觸發條件。
  8. 使用代表性使用者、來源記錄、場景、文件和客戶端設備執行驗證負載。
  9. 記錄容量基線、已知假設、餘量、複核週期和每個資源域的負責人。

Sizing 工作表

工作表項記錄內容
峰值並發使用者業務峰值、站點峰值、客戶端類型、預期成長、驗證樣例。
最大營運場景場景規模、資產數量、媒體數量、目標設備、下載行為。
整合計畫來源系統、同步頻率、批量規模、允許窗口、重試策略。
AI Agent 並發工作流程類型、定時執行、人工觸發、工具呼叫量、審批佇列。
儲存成長物件儲存成長、資料庫成長、日誌成長、留存週期。
備份與復原備份頻率、備份窗口、復原目標、復原抽樣集合。
高可用副本策略、節點分布、資料庫可用性型態、維護窗口。
可選 GPU 工作負載模擬、渲染、模型處理、私有推理、驗證時長。

驗證清單

  • 代表性使用者可以在預期峰值窗口完成目標工作流程。
  • 連接器任務可以在批准的同步窗口內完成。
  • 模型轉換、資產載入和文件存取達到驗收預期。
  • AI Agent 工作流程和審批佇列沒有形成不可控積壓。
  • 資料庫、佇列、快取和物件儲存指標保持在約定運行範圍內。
  • 備份可以在批准窗口內完成,並且復原抽樣成功。
  • CPU、記憶體、Pod 重啟、佇列積壓、資料庫連接壓力、儲存成長和備份失敗都有告警。
  • 客戶負責人已批准容量基線和複核週期。

預期結果

預期產出是一份容量基線,包含產品部署單元、工作負載假設、初始資源 request 與 limit、資料庫和儲存 I/O 假設、備份估算、擴容觸發條件、驗證證據,以及未來容量複核的負責人。

常見容量問題

現象檢查
使用者在峰值時段回饋頁面慢並發 session、入口容量、API 副本、資料庫延遲、快取命中率。
連接器任務錯過同步窗口來源系統限制、批量規模、worker 數量、佇列深度、重試策略、網路路徑。
模型或資產任務耗時過長worker 資源、資產規模、儲存吞吐、轉換佇列、是否需要可選 GPU worker。
儲存成長快於預期留存策略、重複上傳、日誌留存、匯入文件生命週期、備份副本。
備份超出維護窗口受保護資產清單、物件儲存容量、資料庫大小、備份目標吞吐、計畫安排。
資源 request 阻塞部署namespace 配額、節點容量、儲存類別可用性、OpenShift project 限制、叢集策略。

相關頁面