LLM 推理¶ 建设中 本文档正在建设中,欢迎贡献内容。 概述¶ 大语言模型(LLM)在 TKE 上的推理部署和优化。 计划内容¶ vLLM 部署和配置 PagedAttention 内存优化 Continuous Batching 配置 多 GPU 推理(Tensor Parallelism) 量化推理(INT8/INT4) 流式输出配置 状态: 🚧 待建设