大型科技公司如何解決 LLM 推論瓶頸?
簡短答案
它們不是只靠單一技術,而是用「硬體 + 量化 + KV Cache 管理 + serving engine + 推測解碼」的系統堆疊。
記憶體頻寬瓶頸 → 更高頻寬硬體、HBM、量化、FlashAttention
KV Cache 膨脹 → PagedAttention、offloading、MQA/GQA、KV cache quantization
自迴歸順序性 → speculative decoding、draft model、MTP/EAGLE、continuous batching公司視角
來源主張:
- NVIDIA:Blackwell、TensorRT-LLM、NVFP4 KV Cache 量化、Dynamo、推測解碼。
- Google:TPU、TurboQuant、GKE Inference Gateway、分層 KV Cache、TPU 上的推測解碼。
- OpenAI / Anthropic:API 後端可能使用 continuous batching 與推理引擎,但細節未完全公開。
- Meta Platforms:透過 Llama 開放權重與社群促進 serving optimization。
Caveat
上述公司採用與性能數字多為來源主張,需以官方文件、論文、benchmark 與生產環境案例核驗。尤其 OpenAI / Anthropic 後端是否使用 vLLM / TensorRT-LLM,若無公開資料,不能當作確定事實。
未來 roadmap 補充
新來源補充未來計劃:NVIDIA Rubin/Dynamo、Google TPU 8i/TurboQuant/DFlash/llm-d、Meta MoE/Llama、OpenAI/Anthropic 推測解碼與長上下文成本控制。
生態系延伸
新來源補充:若問題從「大型科技公司」擴展到「完整解決方案生態系」,還要納入 Advanced Micro Devices、Intel、Amazon Web Services 自研晶片、Microsoft Maia、Broadcom、Cerebras Systems、SambaNova Systems、Tenstorrent、Groq、Taiwan Semiconductor Manufacturing Company、記憶體供應商、ASML、AI server system integrator 與 SGLang 等 serving software。完整分類見 LLM推論解決方案生態系有哪些參與者 與 AI推論硬體生態系。