llm-d
llm-d 是來源主張中 Google 支援的開放 LLM serving / inference framework 或生態入口,用於讓模型在不同雲端或加速器上高效運行。
來源主張
來源主張 Google 將 TurboQuant、DFlash 與 GKE Inference Gateway 等技術整合至 llm-d,並於 2026 年底全面可用。此採用狀態、專案範圍與技術邊界需核驗。
與既有頁的關係
llm-d 應與 vLLM、TensorRT-LLM、PagedAttention、Prefill-Decode Disaggregation 一起觀察,因為它們都屬於 LLM serving stack 的一部分。