大型科技公司如何解決 LLM 推論瓶頸?

簡短答案

它們不是只靠單一技術,而是用「硬體 + 量化 + KV Cache 管理 + serving engine + 推測解碼」的系統堆疊。

記憶體頻寬瓶頸 → 更高頻寬硬體、HBM、量化、FlashAttention
KV Cache 膨脹 → PagedAttention、offloading、MQA/GQA、KV cache quantization
自迴歸順序性 → speculative decoding、draft model、MTP/EAGLE、continuous batching

公司視角

來源主張:

  • NVIDIA:Blackwell、TensorRT-LLM、NVFP4 KV Cache 量化、Dynamo、推測解碼。
  • Google:TPU、TurboQuant、GKE Inference Gateway、分層 KV Cache、TPU 上的推測解碼。
  • OpenAI / Anthropic:API 後端可能使用 continuous batching 與推理引擎,但細節未完全公開。
  • Meta Platforms:透過 Llama 開放權重與社群促進 serving optimization。

Caveat

上述公司採用與性能數字多為來源主張,需以官方文件、論文、benchmark 與生產環境案例核驗。尤其 OpenAI / Anthropic 後端是否使用 vLLM / TensorRT-LLM,若無公開資料,不能當作確定事實。

未來 roadmap 補充

新來源補充未來計劃:NVIDIA Rubin/Dynamo、Google TPU 8i/TurboQuant/DFlash/llm-d、Meta MoE/Llama、OpenAI/Anthropic 推測解碼與長上下文成本控制。

生態系延伸

新來源補充:若問題從「大型科技公司」擴展到「完整解決方案生態系」,還要納入 Advanced Micro DevicesIntelAmazon Web Services 自研晶片、Microsoft MaiaBroadcomCerebras SystemsSambaNova SystemsTenstorrentGroqTaiwan Semiconductor Manufacturing Company、記憶體供應商、ASML、AI server system integrator 與 SGLang 等 serving software。完整分類見 LLM推論解決方案生態系有哪些參與者AI推論硬體生態系