弹性管理¶

概述¶

OpenClaw 采用超卖 + 弹性管理策略，大幅降低资源成本，同时保证用户体验。

超卖策略¶

配置建议¶

资源	Request	Limit	超卖比
CPU	0.2C	1C	4-5:1
内存	800MB	2GB	2-3:1

Pod 资源配置¶

resources:
  requests:
    cpu: "200m"      # 0.2C
    memory: "800Mi"  # 800MB
  limits:
    cpu: "1"         # 1C
    memory: "2Gi"    # 2GB

节点容量计算¶

基于 48C192G 标准节点：

可运行 Pod 数 = min(
  48C / 0.2C = 240,
  192G / 800M = 240
) ≈ 200-300 Pod（考虑系统预留）

弹性管理¶

用户状态¶

状态	资源占用	触发条件	恢复时间
活跃运行	CPU + 内存 + 存储	用户活跃	-
卸载	仅存储（云盘保留）	30 天不活跃	10-15 秒
完全删除	释放所有资源	用户注销	-

卸载策略¶

# 伪代码：卸载控制器
apiVersion: openclaw.io/v1
kind: UnloadPolicy
metadata:
  name: default-unload
spec:
  inactivityThreshold: 30d    # 30 天不活跃
  diskRetentionPeriod: 7d     # 云盘保留 7 天
  unloadAction: ScaleToZero   # 缩容到 0

加载流程¶

sequenceDiagram
    participant User
    participant Ingress
    participant Controller
    participant Pod
    participant CBS

    User->>Ingress: 访问请求
    Ingress->>Controller: 用户 Pod 不存在
    Controller->>Pod: 创建 Pod
    Controller->>CBS: 挂载云盘
    CBS-->>Pod: 挂载完成 (10-15秒)
    Pod-->>Ingress: Pod Ready
    Ingress-->>User: 返回响应

资源优化¶

实际资源占用¶

由于用户活跃度不均，实际资源占用约为理论值的 20-30%：

理论资源 = 100万 Pod × 1C2G = 100万C 200万G
实际资源 = 100万 Pod × 0.2C0.8G × 30% = 6万C 24万G

成本节省¶

超卖：降低 4-5 倍
卸载：再降低 70%
综合：降低约 15-20 倍

监控指标¶

关键指标¶

指标	说明	告警阈值
`pod_restart_count`	Pod 重启次数	> 3/小时
`pod_load_latency`	加载延迟	> 20秒
`node_cpu_usage`	节点 CPU 使用率	> 80%
`node_memory_usage`	节点内存使用率	> 85%

Prometheus 配置¶

groups:
- name: openclaw-alerts
  rules:
  - alert: HighPodLoadLatency
    expr: histogram_quantile(0.99, pod_load_latency_bucket) > 20
    for: 5m
    labels:
      severity: warning
    annotations:
      summary: "Pod 加载延迟过高"

弹性管理¶

概述¶

超卖策略¶

配置建议¶

Pod 资源配置¶

节点容量计算¶

弹性管理¶

用户状态¶

卸载策略¶

加载流程¶

资源优化¶

实际资源占用¶

成本节省¶

监控指标¶

关键指标¶

Prometheus 配置¶

相关文档¶