跳到主要内容

容量规划

容量规划用于在生产上线前确认客户可控 FactVerse 环境需要的资源。本页适用于 Kubernetes、OpenShift、客户虚拟机或受限网络中的私有化容器部署。

以下数值是客户侧部署的初始规划区间。最终值应结合交付包、启用模块、用户并发、资产规模、连接器计划、留存策略和客户基础设施标准完成验证。

前提条件

先完成部署模型和容器运行时决策。确认产品模块范围、环境数量、身份方式、源系统、预期用户、客户端设备、数据留存策略、备份目标、监控平台和变更审批流程。

容量规划流程

产品部署单元

镜像名称和 chart 名称由项目交付包提供。使用下表理解通常需要独立做容量规划的部署单元。

产品范围典型部署单元容量驱动因素
FactVerse Platform 基线Web 控制台、API gateway、租户与身份服务、资产元数据服务、数据库、缓存或队列、对象存储、入口。并发用户、资产元数据量、API 调用、认证流量、对象存储增长。
DataMesh InspectorInspector API、工单与巡检服务、证据上传服务、通知任务、可选 DFS 连接器 worker、ECM 证据存储。现场用户、巡检记录、图片或视频证据、工单同步、移动端上传峰值。
Data Fusion ServicesDFS API、连接器控制器、连接器 worker、映射与质量任务、调度器、队列、连接器日志。连接器数量、同步频率、批量规模、源系统限制、重试率、质量规则数量。
FactVerse AI AgentAgent API、工作流编排器、工具执行 worker、检索或索引服务、审批队列、审计记录。工作流并发、工具调用量、文档检索、定时自动化、人工审批积压。
企业内容管理ECM API、文档服务、搜索或索引服务、对象存储、审批工作流任务。文档数量、文件大小、留存周期、审批活动、搜索频率。
Designer、资产准备与 Physical AI资产服务、模型转换 worker、仿真或渲染 worker、worker scratch 存储、可选 GPU worker。最大模型规模、转换频率、仿真任务、SimReady asset 准备、渲染或物理工作负载。
客户端应用Web 访问、桌面客户端、移动客户端、混合现实设备、现场缓存。下载大小、站点带宽、设备缓存行为、更新频率、离线包要求。

初始容器 sizing

以下数值按单个副本或单个 worker 计算,表格另有说明时除外。用 request 做调度规划,用 limit 保护节点。limit 应在验证负载后再调高。

部署单元初始 request初始 limit副本或 workerI/O 与存储说明
Web 控制台或静态前端0.1-0.25 vCPU,256-512 MiB0.5 vCPU,1 GiB生产环境 2 个副本。磁盘 I/O 很低。条件允许时在入口或客户 CDN 缓存静态资源。
API gateway 与轻量 API0.5-1 vCPU,1-2 GiB2 vCPU,4 GiB生产环境 2 个副本。关注 p95 延迟、错误率和连接池使用。
产品 API 服务1 vCPU,2-4 GiB4 vCPU,8 GiB生产环境 2 个副本,高并发时增加。对数据库延迟和对象存储访问敏感。
租户、身份与管理服务0.5 vCPU,1-2 GiB2 vCPU,4 GiB生产环境 2 个副本。在故障切换测试中保持 SSO 回调和 session 行为稳定。
DFS 连接器 worker0.5-2 vCPU,1-4 GiB4 vCPU,8 GiB每个连接器组或同步窗口先规划 1 个 worker。批量规模和源系统延迟通常是主要瓶颈。避免大型同步任务重叠。
AI Agent 工作流 worker1-2 vCPU,4-8 GiB4 vCPU,16 GiB启用定时工作流时先规划 2 个 worker。队列深度、工具调用延迟、检索延迟和审批积压驱动扩容。
ECM 文档与搜索服务1-2 vCPU,2-8 GiB4 vCPU,16 GiBAPI 2 个副本;索引服务单独 sizing。搜索索引需要快速持久化存储和内存余量。
模型转换或资产处理 worker2-4 vCPU,8-16 GiB8 vCPU,24-32 GiB先规划 1-2 个 worker;重资产场景建议与 API 节点隔离。使用快速本地 scratch 存储。大模型会带来内存和临时磁盘峰值。
仿真、渲染或 Physical AI worker4-8 vCPU,16-32 GiB16 vCPU,64 GiB按项目工作负载 sizing。交付包要求时增加 GPU 节点。需要独立 scratch 存储和更长验证运行。
缓存或队列1-2 vCPU,2-4 GiB4 vCPU,8 GiB生产环境应使用客户批准的 HA 形态。监控队列深度、内存淘汰和持久化模式。
Ingress controller0.5-1 vCPU,512 MiB-2 GiB2 vCPU,4 GiB集群策略允许时至少 2 个副本。按 TLS 终止、上传大小和客户端下载峰值 sizing。

环境 sizing 档位

以下档位用于客户侧初始规划。它们是集群或环境级参考,不能替代版本交付包中的 values 文件。

档位典型用途计算基线数据服务存储与 I/O 基线
单节点验证实验室验证、培训、配置评审、问题复现。单台 VM 或节点 8-12 vCPU,32-48 GiB RAM。本地或客户提供的数据库和缓存。300-500 GiB SSD。仅用于验证。
小型生产单站点、中等用户、有限连接器、标准 Inspector 或 ECM 工作负载。3 个 worker 节点,每个 8 vCPU、32 GiB RAM,control-plane 按客户标准。PostgreSQL 4 vCPU、16 GiB RAM;缓存或队列 2 vCPU、4 GiB RAM。数据库 SSD 至少 3,000 IOPS;对象存储 1-2 TiB;worker scratch 100-200 GiB。
标准生产多站点或多部门、常规 DFS 同步、AI Agent 工作流、文档和证据留存。3-5 个 worker 节点,每个 16 vCPU、64 GiB RAM。PostgreSQL 8 vCPU、32 GiB RAM;缓存或队列 4 vCPU、8 GiB RAM;启用搜索时搜索服务 4 vCPU、16 GiB RAM。数据库 SSD 6,000-10,000 IOPS;对象存储 2-5 TiB;worker scratch 300-500 GiB。
资产重或 Physical AI大模型、频繁转换、仿真、渲染、SimReady asset 准备、机器人训练场景。标准生产基础上增加专用 worker 节点,16-32 vCPU、64-128 GiB RAM。仅在需要时增加 GPU 节点。PostgreSQL 8-16 vCPU、32-64 GiB RAM;启用检索时单独规划搜索或索引容量。数据库 SSD 10,000+ IOPS;对象存储 5 TiB 以上;scratch 存储 500 GiB 以上并具备较高顺序吞吐。
高管控环境受限网络、离线包导入、严格留存、验证和生产路径分离。生产和验证环境分别 sizing。保留离线升级验证余量。客户管理的 HA 数据库、缓存或队列、内部镜像仓库、备份平台。增加镜像归档、恢复抽样、日志和 release bundle 的空间。

存储与 I/O 建议

存储区域推荐类型规划建议监控项
数据库卷SSD 或高性能块存储。按 sizing 档位选择 IOPS。为空间索引、迁移、备份暂存和恢复测试保留余量。IOPS 饱和、延迟、慢查询、锁等待、连接压力。
对象存储客户对象存储或 S3 兼容服务。容量应覆盖源文件、转换资产、文档、证据、生成报告、保留版本和生命周期缓冲。增长率、大对象延迟、上传失败、生命周期清理、恢复抽样。
Worker scratch快速本地 SSD 或高吞吐临时卷。模型转换和仿真 worker 需要独立临时空间。按最大模型和派生文件估算 scratch。临时磁盘压力、转换时长、worker 驱逐、失败任务。
搜索或索引卷SSD 持久卷。内存和磁盘一起规划。重建时间应落在维护窗口内。查询延迟、索引大小、重建时间、内存压力。
日志与审计记录客户日志平台或持久化存储。按留存策略和导出量 sizing。高管控项目通常需要独立审计留存。日志增长、日志丢失、留存压力、查询时间。
备份目标客户备份平台或对象存储层。备份吞吐必须满足维护窗口。包含数据库、对象存储、配置和 release 证据。备份时长、备份失败、恢复时长、受保护资产清单不完整。

I/O 规划规则

  • 数据库卷使用延迟稳定的 SSD 级存储。
  • 对象存储面向大文件顺序上传和下载优化。
  • 模型转换和仿真 worker 使用独立 scratch 存储,避免临时文件与数据库 I/O 竞争。
  • 小型环境中,大型 DFS 同步、模型转换、备份和搜索重建应分开窗口执行。
  • 按数据类型跟踪存储增长:模型、转换资产、文档、巡检证据、日志、数据库和备份。
  • 接受容量基线前,验证计划中应包含至少一次恢复抽样。

输入项

输入需要确认的内容容量影响
环境生产、验证、培训、灾备和实验室环境。决定集群、虚拟机、存储、备份和监控的总体规模。
用户工作负载命名用户、活跃用户、峰值并发会话、用户组、站点时区、客户端类型。影响 Web/API 副本、会话负载、网络吞吐和支持窗口。
场景与资产工作负载场景数量、最大模型规模、模型转换频率、媒体文件、下载、现场设备缓存行为。影响对象存储、模型处理 worker、缓存和备份容量。
DFS 与集成工作负载源系统、连接器数量、同步频率、批量规模、重试策略、回写要求。影响连接器 worker、队列深度、数据库 I/O、网络路径和源系统限制。
AI Agent 工作负载工作流并发、工具调用量、文档检索、定时自动化、审批队列。影响 worker 并发、队列容量、数据库负载和可选私有推理容量。
仿真或 Physical AI 工作负载项目范围内的仿真任务、资产准备、渲染、物理验证、机器人或培训场景。可能需要独立 worker 节点、GPU 节点、更大存储和更长验证窗口。
ECM 与证据工作负载文档、SOP、图片、巡检证据、审计记录、留存周期。影响对象存储、数据库记录、索引规模、备份窗口和恢复测试范围。
运维策略可用性目标、维护窗口、日志留存、备份频率、恢复目标。影响冗余、监控、日志存储、备份基础设施和恢复流程。

规划步骤

  1. 选择匹配产品范围和预期工作负载的 sizing 档位。
  2. 将启用产品映射到部署单元,并识别需要专用 worker 的单元。
  3. 填写用户、场景、资产、集成、AI Agent 工作流、ECM 文档和留存要求的 sizing 工作表。
  4. 定义 CPU request、内存 request、limit、副本数、存储类、持久卷和 namespace 配额。
  5. 定义数据库 IOPS、对象存储容量、worker scratch 大小、搜索索引大小、日志留存和备份目标吞吐。
  6. 区分稳定负载和突发负载,例如模型转换、定时同步、批量导入、搜索索引和仿真任务。
  7. 定义副本扩展、worker 数量、存储扩展、数据库调优、连接器计划和备份窗口的触发条件。
  8. 使用代表性用户、源记录、场景、文档和客户端设备执行验证负载。
  9. 记录容量基线、已知假设、余量、复核周期和每个资源域的负责人。

Sizing 工作表

工作表项记录内容
峰值并发用户业务峰值、站点峰值、客户端类型、预期增长、验证样例。
最大运营场景场景规模、资产数量、媒体数量、目标设备、下载行为。
集成计划源系统、同步频率、批量规模、允许窗口、重试策略。
AI Agent 并发工作流类型、定时运行、人工触发、工具调用量、审批队列。
存储增长对象存储增长、数据库增长、日志增长、留存周期。
备份与恢复备份频率、备份窗口、恢复目标、恢复抽样集合。
高可用副本策略、节点分布、数据库可用性形态、维护窗口。
可选 GPU 工作负载仿真、渲染、模型处理、私有推理、验证时长。

验证清单

  • 代表性用户可以在预期峰值窗口完成目标工作流。
  • 连接器任务可以在批准的同步窗口内完成。
  • 模型转换、资产加载和文档访问达到验收预期。
  • AI Agent 工作流和审批队列没有形成不可控积压。
  • 数据库、队列、缓存和对象存储指标保持在约定运行范围内。
  • 备份可以在批准窗口内完成,并且恢复抽样成功。
  • CPU、内存、Pod 重启、队列积压、数据库连接压力、存储增长和备份失败都有告警。
  • 客户负责人已批准容量基线和复核周期。

预期结果

预期产出是一份容量基线,包含产品部署单元、工作负载假设、初始资源 request 与 limit、数据库和存储 I/O 假设、备份估算、扩容触发条件、验证证据,以及未来容量复核的负责人。

常见容量问题

现象检查
用户在峰值时段反馈页面慢并发会话、入口容量、API 副本、数据库延迟、缓存命中率。
连接器任务错过同步窗口源系统限制、批量规模、worker 数量、队列深度、重试策略、网络路径。
模型或资产任务耗时过长worker 资源、资产规模、存储吞吐、转换队列、是否需要可选 GPU worker。
存储增长快于预期留存策略、重复上传、日志留存、导入文件生命周期、备份副本。
备份超出维护窗口受保护资产清单、对象存储容量、数据库大小、备份目标吞吐、计划安排。
资源 request 阻塞部署namespace 配额、节点容量、存储类可用性、OpenShift project 限制、集群策略。

相关页面