LLM 推論優化技術堆疊

核心結論

LLM推論瓶頸的解法已從單一技巧轉向系統堆疊：

硬體層：GPU/TPU/HBM/記憶體頻寬與容量
精度層：權重量化、KV Cache 量化、低位元格式
記憶體管理層：PagedAttention、tiered KV cache、offloading
模型架構層：MQA/GQA、draft model、multi-token prediction
Serving 層：continuous batching、routing、推理引擎
演算法層：推測解碼、prefix caching、cache management

這些技術共同處理三個核心瓶頸：記憶體頻寬瓶頸、KV Cache 成長、以及自迴歸生成順序性。

對應關係

1. Memory bandwidth bottleneck

常見解法：

更高頻寬/容量的 GPU、TPU、HBM。
權重與 KV Cache 量化，降低每 token 要讀取的資料量。
FlashAttention / memory-efficient attention，改善資料存取模式。

2. KV Cache growth

常見解法：

PagedAttention：降低 KV Cache fragmentation 與浪費。
tiered storage / offloading：將較冷 KV cache 移至 CPU RAM、SSD、CXL 或網路儲存。
MQA/GQA：從 attention 架構減少 KV Cache 大小。
KV Cache quantization：降低 cache precision 與容量需求。

3. Autoregressive sequential limit

常見解法：

推測解碼：用 draft model 先產生多個候選 token，再由大模型驗證。
Multi-Token Prediction / EAGLE / P-EAGLE 等變體。
continuous batching：提高多使用者場景的 GPU utilization。

公司分工 caveat

來源把 NVIDIA 與 Google 描述為硬體 + 軟體引擎深度整合者；OpenAI、Anthropic 更偏模型/API 服務商；Meta Platforms 透過 Llama 與開源生態促進社群優化。這個分工有分析價值，但所有具體採用與 benchmark 都需以官方文件或論文核驗。

生態系補充

新來源把技術堆疊映射到更完整的 AI推論硬體生態系：通用 GPU / accelerator、雲端自研 ASIC、客製 ASIC、專用推論加速器、製造供應鏈、系統整合商與 serving software。這讓推論瓶頸分析從「哪些技巧有效」擴展到「哪些公司在不同層級提供有效容量或成本下降」。但各層的價值捕捉不同，不能把技術重要性直接等同於投資報酬。

投資分析含義

推論成本下降可能提高 token demand，連接 Token Economics Flywheel。
量化與 offload 可能降低單位 HBM 需求，但長上下文與更多使用者也可能擴大總 memory demand。
Serving stack 進步可能改善雲端毛利率，但若 demand elasticity 很高，也可能繼續推高 capex。
硬體、雲端、模型供應商的價值捕捉位置不同，不能把「技術採用」直接等同於收入受益。

待核驗

各 optimization 的 benchmark 是否可跨模型、跨硬體、跨 production workload 泛化。
KV Cache offload 到 CPU/SSD/網路儲存是否會惡化 p95/p99 latency。
量化對準確度、長上下文穩定性與 multi-turn quality 的影響。
speculative decoding acceptance rate 與 draft model 成本。

2026-2027 roadmap 補充

新來源把目前優化技術延伸為 2026-2027 roadmap：Rubin/Rubin Ultra、TPU 8i、LPU、HBM4、on-chip SRAM、prefill/decode disaggregation、DFlash、llm-d、MoE 與 agentic long-context workload。所有規格、時程與成本下降數字均為來源主張。

SFLAB Brain

Explorer

LLM推論優化技術堆疊

LLM 推論優化技術堆疊

核心結論

對應關係

1. Memory bandwidth bottleneck

2. KV Cache growth

3. Autoregressive sequential limit

公司分工 caveat

生態系補充

投資分析含義

待核驗

2026-2027 roadmap 補充

Graph View

Table of Contents

Backlinks