跳转至

LLM 推理

建设中

本文档正在建设中,欢迎贡献内容。

概述

大语言模型(LLM)在 TKE 上的推理部署和优化。

计划内容

  • vLLM 部署和配置
  • PagedAttention 内存优化
  • Continuous Batching 配置
  • 多 GPU 推理(Tensor Parallelism)
  • 量化推理(INT8/INT4)
  • 流式输出配置

状态: 🚧 待建设