TKE Workshop

LLM 推理

正在初始化搜索引擎

TKE Workshop
基础操作
最佳实践
AI on TKE
Data on TKE 🚧
Cookbook Collection

TKE Workshop

TKE Workshop
基础操作
基础操作
- 集群管理
  集群管理
- 节点管理
  节点管理
- 节点池管理
  节点池管理
  - 创建节点池
  - 扩缩节点池
- 超级节点管理
  超级节点管理
- 工作负载
  工作负载
- 服务管理
  服务管理
  - 创建 Service
最佳实践
最佳实践
AI on TKE
AI on TKE
- Training on TKE
  Training on TKE
- Inference on TKE
  Inference on TKE
  - 推理框架
  - 服务部署
  - LLM 推理 LLM 推理
    目录
    
    概述
    
    计划内容
  - 自动扩缩容
  - 性能优化
  - 模型管理
- OpenClaw on TKE
  OpenClaw on TKE
- OPEA on TKE
  OPEA on TKE
  - 快速开始
  - ChatQnA 部署
- KitOps on TKE
  KitOps on TKE
- TKE with AI Copilot
  TKE with AI Copilot
  - TKE Skill
  - 使用场景指南
Data on TKE 🚧
Data on TKE 🚧
- 存储配置
- 数据处理
Cookbook Collection

目录

概述
计划内容

LLM 推理¶

建设中

本文档正在建设中，欢迎贡献内容。

概述¶

大语言模型（LLM）在 TKE 上的推理部署和优化。

计划内容¶

vLLM 部署和配置
PagedAttention 内存优化
Continuous Batching 配置
多 GPU 推理（Tensor Parallelism）
量化推理（INT8/INT4）
流式输出配置

状态: 🚧 待建设

2026年3月5日 2026年3月5日

自动扩缩容

Copyright © 2024-2026 Tencent Cloud

Made with Material for MkDocs