TKE Skill:让 AI 成为你的 K8s 运维助手¶
TKE Skill 是一个 AI Agent 扩展能力,让任何支持 Skill/Tool 机制的 AI Agent(如 CodeBuddy、Claude、GPT 等)可以直接调用腾讯云 TKE API 和 Kubernetes 集群,完成 K8s 集群的查询、部署和运维任务。
简单说:给 AI 装上 K8s 全栈运维能力。
⚠️ 安全与隔离建议
生产环境请注意以下安全实践:
- 权限最小化:巡检和排障场景建议使用 只读权限 的 kubeconfig,避免误操作
- 环境隔离:一句话部署等写操作建议先在 开发测试集群 验证,再推广到生产环境
- 审计追踪:开启 K8s 审计日志,记录 AI Agent 的所有操作
- 凭证管理:定期轮换 Token,不要在共享环境暴露高权限凭证
🤔 为什么需要这个?¶
AI Coding 已经能帮我们写出很不错的代码了。但写完之后呢?
- 代码写完了,怎么部署到 K8s?
- 部署上去了,怎么配置高可用?
- 跑起来了,出问题怎么排查?
- 流量上来了,怎么自动扩容?
- 多个团队共享集群,怎么快速分配权限?
AI 能帮你写代码,但写完代码只是开始。
TKE Skill 要解决的问题——让 AI 不仅能写代码,还能帮你部署、运维、排障、管理权限。
🛠️ 当前能力(v2.0)¶
TKE Skill 通过两个 CLI 工具提供完整的云原生运维能力:
- tke_cli.py — 腾讯云 API 操作(集群管理、TCR 镜像仓库)
- k8s_cli.py — Kubernetes 集群内操作(资源管理、Pod 操作、Helm 部署、RBAC 租户管理)
📋 TKE 集群管理¶
| 能力 | 说明 | 状态 |
|---|---|---|
| 集群列表/状态查询 | 查看所有集群、运行状态、版本信息 | ✅ |
| kubeconfig 获取 | 一句话获取集群访问凭证 | ✅ |
| 节点池查询 | 查看节点池配置和节点状态 | ✅ |
| 集群规格查询 | 查看集群资源限制和配置 | ✅ |
| 访问端点管理 | 开启/关闭内网/外网访问 | ✅ |
🐳 TCR 镜像仓库管理¶
| 能力 | 说明 | 状态 |
|---|---|---|
| 实例管理 | 创建/删除/查询 TCR 实例 | ✅ |
| 命名空间管理 | 创建/删除/查询命名空间 | ✅ |
| 镜像仓库管理 | 创建/删除/查询镜像仓库 | ✅ |
| 镜像版本查询 | 查看镜像 Tag 列表 | ✅ |
☸️ Kubernetes 资源操作¶
| 能力 | 说明 | 状态 |
|---|---|---|
| 资源查询 | get/describe 各类 K8s 资源 | ✅ |
| 资源创建 | apply/create 部署应用 | ✅ |
| 资源删除 | delete 清理资源 | ✅ |
| Pod 日志 | logs 查看应用日志 | ✅ |
| Pod 执行 | exec 进入容器执行命令 | ✅ |
| 事件查看 | events 监控集群事件 | ✅ |
| 资源监控 | top 查看资源使用情况 | ✅ |
⛵ Helm 包管理¶
| 能力 | 说明 | 状态 |
|---|---|---|
| Chart 安装 | helm-install 部署 Chart | ✅ |
| Release 升级 | helm-upgrade 更新版本 | ✅ |
| Release 卸载 | helm-uninstall 清理 | ✅ |
| Release 列表 | helm-list 查看已部署 | ✅ |
| Release 状态 | helm-status 查看详情 | ✅ |
🔐 多租户 RBAC 管理(🆕 新功能)¶
| 能力 | 说明 | 状态 |
|---|---|---|
| 租户创建 | 一句话创建 ServiceAccount + Role + RoleBinding | ✅ |
| 租户列表 | 查看所有已创建的租户 | ✅ |
| 租户删除 | 清理租户 RBAC 资源 | ✅ |
| Token 获取 | 获取租户访问 Token | ✅ |
| Prompt 生成 | 为租户生成一键安装 Prompt | ✅ |
| Context 管理 | 多集群上下文切换 | ✅ |
| Kubeconfig 合并 | 合并多个 kubeconfig 文件 | ✅ |
🎯 角色模板¶
RBAC 租户管理支持 4 种预定义角色:
| 角色 | 权限范围 | 适用场景 |
|---|---|---|
readonly | get/list/watch | 只读访问,适合查看和调试 |
developer | 完整的工作负载管理权限 | 开发者日常操作 |
admin | 命名空间管理员权限 | 团队负责人 |
custom | 自定义规则 | 特殊需求(需 --rules-file) |
示例:
# 集群管理
帮我查一下广州地域的 TKE 集群
获取集群 cls-xxx 的 kubeconfig
# K8s 资源操作
帮我查看 default 命名空间的 Pod 状态
帮我部署 nginx 到 production 命名空间
# Helm 部署
帮我用 Helm 安装 nginx,3 副本
# 多租户管理
帮我创建一个账号 team-frontend,权限级别 developer,可以访问 frontend 命名空间
帮我生成 team-frontend 的安装 Prompt
🚀 一句话部署应用¶
痛点:用 AI 写完一个 Web 应用,想部署到 K8s 上,发现还要: - 写 Dockerfile - 构建镜像、推送镜像仓库 - 写 Deployment/Service/Ingress YAML - 配置资源限制、健康检查 - 考虑高可用(多副本、反亲和性、PDB) - ...
这些对熟悉 K8s 的人来说不难,但确实繁琐。对不熟悉 K8s 的开发者来说,更是一道门槛。
使用 TKE Skill:
AI 将自动完成:
✅ 分析需求,设计部署方案
✅ 编写 Deployment、Service、ConfigMap 等 YAML
✅ 执行 kubectl apply 部署资源
✅ 设计架构方案(如 Nginx + Sidecar 模式解决 ARM/x86 兼容问题)
✅ 部署完成,返回服务访问地址
实际验证:
| 应用 | 类型 | 部署结果 |
|---|---|---|
| 静态页面 | Nginx + ConfigMap | ✅ 成功部署,LoadBalancer 自动分配外部 IP |
| 复杂应用 | 需打包镜像 | ✅ 成功部署,Sidecar 模式解决兼容性问题 |
核心价值:
让 AI Coding 出来的应用,一句话部署到 K8s 环境,而不是永远停留在
npm run dev。
🔧 智能运维排障¶
痛点:生产环境出问题了,排查流程通常是:
- 看告警 → 登录控制台 → 找到集群
- 看 Pod 状态 → 看 Events → 看日志
- 检查资源使用 → 检查节点状态
- 搜索文档/Google → 尝试解决
- 不行就找 SRE...
使用 TKE Skill:
AI 将自动执行排障流程:
🔍 正在分析 Pod 状态...
📋 发现问题 Pod: my-app-7d9f8b6c5d-xxxxx
- 状态: CrashLoopBackOff
- 原因: 容器启动失败
📊 日志分析:
- 查看 Pod 日志,发现配置文件缺失
- 检查 Events,发现镜像拉取正常
💡 诊断结论: 应用配置问题
🔧 解决方案:
1. 补充缺失的 ConfigMap
2. 更新 Deployment 挂载配置
3. 重新部署
实际验证:在部署复杂应用时,AI 成功完成了: - 分析 Pod 状态和事件 - 查看容器日志 - 诊断问题根因(如 ARM/x86 架构不兼容) - 设计解决方案(Nginx + Sidecar 模式)
核心价值:
把 SRE 的排障经验固化成 AI 能力,让普通开发者也能快速定位和解决 K8s 问题。
🔮 后续规划¶
⚡ AI 应用运维增强¶
AI 帮你写完代码、部署上线后,运维才刚刚开始。我们计划支持一系列运维增强能力:
自动伸缩配置¶
AI 自动配置 HPA: - 分析应用特点,推荐伸缩指标(CPU/内存/自定义指标) - 设置合理的阈值和副本范围 - 配置缩容稳定窗口,避免频繁抖动
故障自愈¶
AI 自动配置: - 健康检查探针(HTTP/TCP/Exec) - 重启策略和失败阈值 - PodDisruptionBudget 保证可用性
资源优化建议¶
AI 分析后给出建议:
📊 my-app 资源分析报告(过去 7 天)
CPU:
- 请求: 500m, 限制: 1000m
- 实际平均: 120m, P99: 380m
- 建议: requests 200m, limits 500m(可节省 60%)
内存:
- 请求: 1Gi, 限制: 2Gi
- 实际平均: 450Mi, P99: 680Mi
- 建议: requests 512Mi, limits 1Gi(可节省 50%)
💰 优化后预计节省成本: ¥xxx/月
灰度发布¶
AI 自动执行金丝雀发布: - 创建新版本 Deployment - 配置流量权重(基于 Istio/Nginx Ingress) - 监控错误率和延迟 - 异常自动回滚
💡 核心理念¶
AI Coding 不应该只是"写代码",而是从编码到部署到运维的全链路能力增强。
我们希望 TKE Skill 能让 AI 帮你写的代码:
| 阶段 | 传统方式 | 使用 TKE Skill |
|---|---|---|
| 部署 | 手写 Dockerfile + YAML,学习 K8s 概念 | 一句话高可用部署 |
| 监控 | 配置 Prometheus + Grafana,写告警规则 | AI 自动配置,异常主动通知 |
| 伸缩 | 理解 HPA/VPA,调参优化 | 描述需求,AI 自动配置 |
| 排障 | 看日志、查文档、问 SRE | 一句话定位问题,给出方案 |
| 优化 | 定期人工分析资源使用 | AI 持续分析,主动建议 |
这才是 AI + 云原生的正确打开方式 🚀
🚧 当前状态¶
| 能力 | 状态 |
|---|---|
| TKE 集群管理(列表/状态/kubeconfig) | ✅ 已发布 |
| TCR 镜像仓库管理 | ✅ 已发布 |
| K8s 资源操作(get/apply/delete/logs/exec) | ✅ 已发布 |
| Helm 包管理(install/upgrade/uninstall) | ✅ 已发布 |
| 多租户 RBAC 管理 | ✅ 已发布 |
| Context/Kubeconfig 管理 | ✅ 已发布 |
| 一句话部署应用 | ✅ 已验证 |
| 智能运维排障 | ✅ 已验证 |
| 自动伸缩/故障自愈 | 📝 规划中 |
| 资源优化建议 | 📝 规划中 |
| 灰度发布 | 📝 规划中 |
🔗 相关文档¶
- AI Copilot 概述 - 模块介绍和学习目标
- 用户故事 - TKE Skill 使用场景和验收标准
- POC 演示案例 - 实际验证案例(一句话部署、智能排障)
- kubernetes-mcp-server 集成 - MCP 协议集成方案
外部链接¶
- TKE Skill 下载 - 源码和安装说明
- TKE 产品文档
- Kubernetes 官方文档