SGLang

摘要

SGLang 是來源中提到的 LLM serving / inference framework。此頁暫作概念 seed,用於和 vLLMTensorRT-LLM 一起追蹤 serving software 如何影響 KV Cache 管理、batching、routing 與推測解碼。

待核驗

  • SGLang 的正式功能、維護者、採用者與 benchmark。
  • 與 vLLM / TensorRT-LLM 在 latency、throughput、structured generation、agent workload 的差異。

相關頁面