跳转至

性能优化

建设中

本文档正在建设中,欢迎贡献内容。

概述

推理服务的延迟和吞吐量优化策略。

计划内容

  • 模型优化(量化、剪枝、蒸馏)
  • 批处理策略优化
  • GPU 利用率优化
  • 网络延迟优化
  • 性能基准测试

状态: 🚧 待建设