LLM 推論優化技術堆疊
核心結論
LLM推論瓶頸 的解法已從單一技巧轉向系統堆疊:
硬體層:GPU/TPU/HBM/記憶體頻寬與容量
精度層:權重量化、KV Cache 量化、低位元格式
記憶體管理層:PagedAttention、tiered KV cache、offloading
模型架構層:MQA/GQA、draft model、multi-token prediction
Serving 層:continuous batching、routing、推理引擎
演算法層:推測解碼、prefix caching、cache management這些技術共同處理三個核心瓶頸:記憶體頻寬瓶頸、KV Cache 成長、以及自迴歸生成順序性。
對應關係
1. Memory bandwidth bottleneck
常見解法:
- 更高頻寬/容量的 GPU、TPU、HBM。
- 權重與 KV Cache 量化,降低每 token 要讀取的資料量。
- FlashAttention / memory-efficient attention,改善資料存取模式。
2. KV Cache growth
常見解法:
- PagedAttention:降低 KV Cache fragmentation 與浪費。
- tiered storage / offloading:將較冷 KV cache 移至 CPU RAM、SSD、CXL 或網路儲存。
- MQA/GQA:從 attention 架構減少 KV Cache 大小。
- KV Cache quantization:降低 cache precision 與容量需求。
3. Autoregressive sequential limit
常見解法:
- 推測解碼:用 draft model 先產生多個候選 token,再由大模型驗證。
- Multi-Token Prediction / EAGLE / P-EAGLE 等變體。
- continuous batching:提高多使用者場景的 GPU utilization。
公司分工 caveat
來源把 NVIDIA 與 Google 描述為硬體 + 軟體引擎深度整合者;OpenAI、Anthropic 更偏模型/API 服務商;Meta Platforms 透過 Llama 與開源生態促進社群優化。這個分工有分析價值,但所有具體採用與 benchmark 都需以官方文件或論文核驗。
生態系補充
新來源把技術堆疊映射到更完整的 AI推論硬體生態系:通用 GPU / accelerator、雲端自研 ASIC、客製 ASIC、專用推論加速器、製造供應鏈、系統整合商與 serving software。這讓推論瓶頸分析從「哪些技巧有效」擴展到「哪些公司在不同層級提供有效容量或成本下降」。但各層的價值捕捉不同,不能把技術重要性直接等同於投資報酬。
投資分析含義
- 推論成本下降可能提高 token demand,連接 Token Economics Flywheel。
- 量化與 offload 可能降低單位 HBM 需求,但長上下文與更多使用者也可能擴大總 memory demand。
- Serving stack 進步可能改善雲端毛利率,但若 demand elasticity 很高,也可能繼續推高 capex。
- 硬體、雲端、模型供應商的價值捕捉位置不同,不能把「技術採用」直接等同於收入受益。
待核驗
- 各 optimization 的 benchmark 是否可跨模型、跨硬體、跨 production workload 泛化。
- KV Cache offload 到 CPU/SSD/網路儲存是否會惡化 p95/p99 latency。
- 量化對準確度、長上下文穩定性與 multi-turn quality 的影響。
- speculative decoding acceptance rate 與 draft model 成本。
2026-2027 roadmap 補充
新來源把目前優化技術延伸為 2026-2027 roadmap:Rubin/Rubin Ultra、TPU 8i、LPU、HBM4、on-chip SRAM、prefill/decode disaggregation、DFlash、llm-d、MoE 與 agentic long-context workload。所有規格、時程與成本下降數字均為來源主張。