容量规划
容量规划用于在生产上线前确认客户可控 FactVerse 环境需要的资源。本页适用于 Kubernetes、OpenShift、客户虚拟机或受限网络中的私有化容器部署。
以下数值是客户侧部署的初始规划区间。最终值应结合交付包、启用模块、用户并发、资产规模、连接器计划、留存策略和客户基础设施标准完成验证。
前提条件
先完成部署模型和容器运行时决策。确认产品模块范围、环境数量、身份方式、源系统、预期用户、客户端设备、数据留存策略、备份目标、监控平台和变更审批流程。
容量规划流程
产品部署单元
镜像名称和 chart 名称由项目交付包提供。使用下表理解通常需要独立做容量规划的部署单元。
| 产品范围 | 典型部署单元 | 容量驱动因素 |
|---|---|---|
| FactVerse Platform 基线 | Web 控制台、API gateway、租户与身份服务、资产元数据服务、数据库、缓存或队列、对象存储、入口。 | 并发用户、资产元数据量、API 调用、认证流量、对象存储增长。 |
| DataMesh Inspector | Inspector API、工单与巡检服务、证据上传服务、通知任务、可选 DFS 连接器 worker、ECM 证据存储。 | 现场用户、巡检记录、图片或视频证据、工单同步、移动端上传峰值。 |
| Data Fusion Services | DFS API、连接器控制器、连接器 worker、映射与质量任务、调度器、队列、连接器日志。 | 连接器数量、同步频率、批量规模、源系统限制、重试率、质量规则数量。 |
| FactVerse AI Agent | Agent API、工作流编排器、工具执行 worker、检索或索引服务、审批队列、审计记录。 | 工作流并发、工具调用量、文档检索、定时自动化、人工审批积压。 |
| 企业内容管理 | ECM API、文档服务、搜索或索引服务、对象存储、审批工作流任务。 | 文档数量、文件大小、留存周期、审批活动、搜索频率。 |
| Designer、资产准备与 Physical AI | 资产服务、模型转换 worker、仿真或渲染 worker、worker scratch 存储、可选 GPU worker。 | 最大模型规模、转换频率、仿真任务、SimReady asset 准备、渲染或物理工作负载。 |
| 客户端应用 | Web 访问、桌面客户端、移动客户端、混合现实设备、现场缓存。 | 下载大小、站点带宽、设备缓存行为、更新频率、离线包要求。 |
初始容器 sizing
以下数值按单个副本或单个 worker 计算,表格另有说明时除外。用 request 做调度规划,用 limit 保护节点。limit 应在验证负载后再调高。
| 部署单元 | 初始 request | 初始 limit | 副本或 worker | I/O 与存储说明 |
|---|---|---|---|---|
| Web 控制台或静态前端 | 0.1-0.25 vCPU,256-512 MiB | 0.5 vCPU,1 GiB | 生产环境 2 个副本。 | 磁盘 I/O 很低。条件允许时在入口或客户 CDN 缓存静态资源。 |
| API gateway 与轻量 API | 0.5-1 vCPU,1-2 GiB | 2 vCPU,4 GiB | 生产环境 2 个副本。 | 关注 p95 延迟、错误率和连接池使用。 |
| 产品 API 服务 | 1 vCPU,2-4 GiB | 4 vCPU,8 GiB | 生产环境 2 个副本,高并发时增加。 | 对数据库延迟和对象存储访问敏感。 |
| 租户、身份与管理服务 | 0.5 vCPU,1-2 GiB | 2 vCPU,4 GiB | 生产环境 2 个副本。 | 在故障切换测试中保持 SSO 回调和 session 行为稳定。 |
| DFS 连接器 worker | 0.5-2 vCPU,1-4 GiB | 4 vCPU,8 GiB | 每个连接器组或同步窗口先规划 1 个 worker。 | 批量规模和源系统延迟通常是主要瓶颈。避免大型同步任务重叠。 |
| AI Agent 工作流 worker | 1-2 vCPU,4-8 GiB | 4 vCPU,16 GiB | 启用定时工作流时先规划 2 个 worker。 | 队列深度、工具调用延迟、检索延迟和审批积压驱动扩容。 |
| ECM 文档与搜索服务 | 1-2 vCPU,2-8 GiB | 4 vCPU,16 GiB | API 2 个副本;索引服务单独 sizing。 | 搜索索引需要快速持久化存储和内存余量。 |
| 模型转换或资产处理 worker | 2-4 vCPU,8-16 GiB | 8 vCPU,24-32 GiB | 先规划 1-2 个 worker;重资产场景建议与 API 节点隔离。 | 使用快速本地 scratch 存储。大模型会带来内存和临时磁盘峰值。 |
| 仿真、渲染或 Physical AI worker | 4-8 vCPU,16-32 GiB | 16 vCPU,64 GiB | 按项目工作负载 sizing。交付包要求时增加 GPU 节点。 | 需要独立 scratch 存储和更长验证运行。 |
| 缓存或队列 | 1-2 vCPU,2-4 GiB | 4 vCPU,8 GiB | 生产环境应使用客户批准的 HA 形态。 | 监控队列深度、内存淘汰和持久化模式。 |
| Ingress controller | 0.5-1 vCPU,512 MiB-2 GiB | 2 vCPU,4 GiB | 集群策略允许时至少 2 个副本。 | 按 TLS 终止、上传大小和客户端下载峰值 sizing。 |
环境 sizing 档位
以下档位用于客户侧初始规划。它们是集群或环境级参考,不能替代版本交付包中的 values 文件。
| 档位 | 典型用途 | 计算基线 | 数据服务 | 存储与 I/O 基线 |
|---|---|---|---|---|
| 单节点验证 | 实验室验证、培训、配置评审、问题复现。 | 单台 VM 或节点 8-12 vCPU,32-48 GiB RAM。 | 本地或客户提供的数据库和缓存。 | 300-500 GiB SSD。仅用于验证。 |
| 小型生产 | 单站点、中等用户、有限连接器、标准 Inspector 或 ECM 工作负载。 | 3 个 worker 节点,每个 8 vCPU、32 GiB RAM,control-plane 按客户标准。 | PostgreSQL 4 vCPU、16 GiB RAM;缓存或队列 2 vCPU、4 GiB RAM。 | 数据库 SSD 至少 3,000 IOPS;对象存储 1-2 TiB;worker scratch 100-200 GiB。 |
| 标准生产 | 多站点或多部门、常规 DFS 同步、AI Agent 工作流、文档和证据留存。 | 3-5 个 worker 节点,每个 16 vCPU、64 GiB RAM。 | PostgreSQL 8 vCPU、32 GiB RAM;缓存或队列 4 vCPU、8 GiB RAM;启用搜索时搜索服务 4 vCPU、16 GiB RAM。 | 数据库 SSD 6,000-10,000 IOPS;对象存储 2-5 TiB;worker scratch 300-500 GiB。 |
| 资产重或 Physical AI | 大模型、频繁转换、仿真、渲染、SimReady asset 准备、机器人训练场景。 | 标准生产基础上增加专用 worker 节点,16-32 vCPU、64-128 GiB RAM。仅在需要时增加 GPU 节点。 | PostgreSQL 8-16 vCPU、32-64 GiB RAM;启用检索时单独规划搜索或索引容量。 | 数据库 SSD 10,000+ IOPS;对象存储 5 TiB 以上;scratch 存储 500 GiB 以上并具备较高顺序吞吐。 |
| 高管控环境 | 受限网络、离线包导入、严格留存、验证和生产路径分离。 | 生产和验证环境分别 sizing。保留离线升级验证余量。 | 客户管理的 HA 数据库、缓存或队列、内部镜像仓库、备份平台。 | 增加镜像归档、恢复抽样、日志和 release bundle 的空间。 |
存储与 I/O 建议
| 存储区域 | 推荐类型 | 规划建议 | 监控项 |
|---|---|---|---|
| 数据库卷 | SSD 或高性能块存储。 | 按 sizing 档位选择 IOPS。为空间索引、迁移、备份暂存和恢复测试保留余量。 | IOPS 饱和、延迟、慢查询、锁等待、连接压力。 |
| 对象存储 | 客户对象存储或 S3 兼容服务。 | 容量应覆盖源文件、转换资产、文档、证据、生成报告、保留版本和生命周期缓冲。 | 增长率、大对象延迟、上传失败、生命周期清理、恢复抽样。 |
| Worker scratch | 快速本地 SSD 或高吞吐临时卷。 | 模型转换和仿真 worker 需要独立临时空间。按最大模型和派生文件估算 scratch。 | 临时磁盘压力、转换时长、worker 驱逐、失败任务。 |
| 搜索或索引卷 | SSD 持久卷。 | 内存和磁盘一起规划。重建时间应落在维护窗口内。 | 查询延迟、索引大小、重建时间、内存压力。 |
| 日志与审计记录 | 客户日志平台或持久化存储。 | 按留存策略和导出量 sizing。高管控项目通常需要独立审计留存。 | 日志增长、日志丢失、留存压力、查询时间。 |
| 备份目标 | 客户备份平台或对象存储层。 | 备份吞吐必须满足维护窗口。包含数据库、对象存储、配置和 release 证据。 | 备份时长、备份失败、恢复时长、受保护资产清单不完整。 |
I/O 规划规则
- 数据库卷使用延迟稳定的 SSD 级存储。
- 对象存储面向大文件顺序上传和下载优化。
- 模型转换和仿真 worker 使用独立 scratch 存储,避免临时文件与数据库 I/O 竞争。
- 小型环境中,大型 DFS 同步、模型转换、备份和搜索重建应分开窗口执行。
- 按数据类型跟踪存储增长:模型、转换资产、文档、巡检证据、日志、数据库和备份。
- 接受容量基线前,验证计划中应包含至少一次恢复抽样。
输入项
| 输入 | 需要确认的内容 | 容量影响 |
|---|---|---|
| 环境 | 生产、验证、培训、灾备和实验室环境。 | 决定集群、虚拟机、存储、备份和监控的总体规模。 |
| 用户工作负载 | 命名用户、活跃用户、峰值并发会话、用户组、站点时区、客户端类型。 | 影响 Web/API 副本、会话负载、网络吞吐和支持窗口。 |
| 场景与资产工作负载 | 场景数量、最大模型规模、模型转换频率、媒体文件、下载、现场设备缓存行为。 | 影响对象存储、模型处理 worker、缓存和备份容量。 |
| DFS 与集成工作负载 | 源系统、连接器数量、同步频率、批量规模、重试策略、回写要求。 | 影响连接器 worker、队列深度、数据库 I/O、网络路径和源系统限制。 |
| AI Agent 工作负载 | 工作流并发、工具调用量、文档检索、定时自动化、审批队列。 | 影响 worker 并发、队列容量、数据库负载和可选私有推理容量。 |
| 仿真或 Physical AI 工作负载 | 项目范围内的仿真任务、资产准备、渲染、物理验证、机器人或培训场景。 | 可能需要独立 worker 节点、GPU 节点、更大存储和更长验证窗口。 |
| ECM 与证据工作负载 | 文档、SOP、图片、巡检证据、审计记录、留存周期。 | 影响对象存储、数据库记录、索引规模、备份窗口和恢复测试范围。 |
| 运维策略 | 可用性目标、维护窗口、日志留存、备份频率、恢复目标。 | 影响冗余、监控、日志存储、备份基础设施和恢复流程。 |
规划步骤
- 选择匹配产品范围和预期工作负载的 sizing 档位。
- 将启用产品映射到部署单元,并识别需要专用 worker 的单元。
- 填写用户、场景、资产、集成、AI Agent 工作流、ECM 文档和留存要求的 sizing 工作表。
- 定义 CPU request、内存 request、limit、副本数、存储类、持久卷和 namespace 配额。
- 定义数据库 IOPS、对象存储容量、worker scratch 大小、搜索索引大小、日志留存和备份目标吞吐。
- 区分稳定负载和突发负载,例如模型转换、定时同步、批量导入、搜索索引和仿真任务。
- 定义副本扩展、worker 数量、存储扩展、数据库调优、连接器计划和备份窗口的触发条件。
- 使用代表性用户、源记录、场景、文档和客户端设备执行验证负载。
- 记录容量基线、已知假设、余量、复核周期和每个资源域的负责人。
Sizing 工作表
| 工作表项 | 记录内容 |
|---|---|
| 峰值并发用户 | 业务峰值、站点峰值、客户端类型、预期增长、验证样例。 |
| 最大运营场景 | 场景规模、资产数量、媒体数量、目标设备、下载行为。 |
| 集成计划 | 源系统、同步频率、批量规模、允许窗口、重试策略。 |
| AI Agent 并发 | 工作流类型、定时运行、人工触发、工具调用量、审批队列。 |
| 存储增长 | 对象存储增长、数据库增长、日志增长、留存周期。 |
| 备份与恢复 | 备份频率、备份窗口、恢复目标、恢复抽样集合。 |
| 高可用 | 副本策略、节点分布、数据库可用性形态、维护窗口。 |
| 可选 GPU 工作负载 | 仿真、渲染、模型处理、私有推理、验证时长。 |
验证清单
- 代表性用户可以在预期峰值窗口完成目标工作流。
- 连接器任务可以在批准的同步窗口内完成。
- 模型转换、资产加载和文档访问达到验收预期。
- AI Agent 工作流和审批队列没有形成不可控积压。
- 数据库、队列、缓存和对象存储指标保持在约定运行范围内。
- 备份可以在批准窗口内完成,并且恢复抽样成功。
- CPU、内存、Pod 重启、队列积压、数据库连接压力、存储增长和备份失败都有告警。
- 客户负责人已批准容量基线和复核周期。
预期结果
预期产出是一份容量基线,包含产品部署单元、工作负载假设、初始资源 request 与 limit、数据库和存储 I/O 假设、备份估算、扩容触发条件、验证证据,以及未来容量复核的负责人。
常见容量问题
| 现象 | 检查 |
|---|---|
| 用户在峰值时段反馈页面慢 | 并发会话、入口容量、API 副本、数据库延迟、缓存命中率。 |
| 连接器任务错过同步窗口 | 源系统限制、批量规模、worker 数量、队列深度、重试策略、网络路径。 |
| 模型或资产任务耗时过长 | worker 资源、资产规模、存储吞吐、转换队列、是否需要可选 GPU worker。 |
| 存储增长快于预期 | 留存策略、重复上传、日志留存、导入文件生命周期、备份副本。 |
| 备份超出维护窗口 | 受保护资产清单、对象存储容量、数据库大小、备份目标吞吐、计划安排。 |
| 资源 request 阻塞部署 | namespace 配额、节点容量、存储类可用性、OpenShift project 限制、集群策略。 |