AI on TKE¶
本模块介绍在 TKE 上运行 AI/ML 工作负载的最佳实践,包括模型训练、推理部署和大规模 AI 应用架构。
学习目标¶
- 配置 GPU 调度和分布式训练
- 部署高性能模型推理服务
- 构建百万级 AI 助手实例
- 部署企业级 AI 应用平台
- 使用 KitOps 标准化模型打包和分发
章节列表¶
| 章节 | 内容 | 状态 |
|---|---|---|
| Training on TKE | GPU 调度、分布式训练、存储优化(含 6 个子章节) | 🚧 建设中 |
| Inference on TKE | 推理框架、服务部署、LLM 推理、自动扩缩容(含 6 个子章节) | 🚧 建设中 |
| OpenClaw on TKE | 百万级 AI 助手实例架构方案(含 7 个子章节) | ✅ 已完成 |
| OPEA on TKE | 企业级 AI 应用平台部署(含 2 个子章节) | ✅ 已完成 |
| KitOps on TKE | 模型打包、TCR 存储、跨环境复现(含 6 个子章节) | ✅ 已完成 |
| TKE with AI Copilot | AI Agent 赋能 TKE 运维,一句话部署、智能排障 | 🚧 建设中 |