跳转至

Training on TKE

建设中

本章节正在建设中,欢迎贡献内容。

概述

在 TKE 上运行 AI/ML 分布式训练任务的完整指南,涵盖 GPU 调度、分布式训练框架、存储优化等最佳实践。

学习目标

  • 配置 GPU 节点和调度策略
  • 部署 PyTorch/TensorFlow 分布式训练任务
  • 使用 Kubeflow Training Operator
  • 配置高性能存储(CFS、GooseFS)
  • 监控训练任务性能
  • 优化训练效率和成本

章节内容

章节 内容 状态
GPU 调度 GPU 节点配置与调度策略 🚧 待建设
超级节点 GPU 在超级节点上运行 GPU 工作负载 🚧 待建设
分布式训练 PyTorch/TensorFlow 分布式训练 🚧 待建设
Training Operator Kubeflow Training Operator 使用指南 🚧 待建设
存储优化 训练数据存储和缓存优化 🚧 待建设
监控调优 训练任务监控与性能调优 🚧 待建设

相关链接


最后更新: 2026-03-05