記憶體頻寬瓶頸

記憶體頻寬瓶頸指系統性能主要受限於資料從記憶體搬到計算單元的速度，而不是計算單元本身的 FLOPS。

在 LLM 推論中的角色

來源主張，在 LLM推論的 decode phase，每次只生成一個 token，但仍需要讀取大量模型權重與 KV Cache。這使 GPU 計算單元可能等待資料，形成 memory bandwidth bound。

若 LLM 推論受 memory bandwidth 與 KV Cache 限制，則 AI hardware demand 不只來自 GPU compute，也來自：

HBM 與高頻寬記憶體；
advanced packaging / CoWoS 將 accelerator 與 HBM 近距離整合；
CXL Memory、LPDDR、高階 SSD 等容量延伸與 offload 層；
Processing-In-Memory 等降低資料搬移的架構；
推論 serving 軟體如 continuous batching、quantization、FlashAttention、KV cache management。

不是所有推論 workload 都同樣 memory-bound。Prefill、大 batch、短上下文、長上下文、MoE、speculative decoding、不同 quantization 與不同 GPU 架構都會改變瓶頸位置。

新來源補充 memory bandwidth bottleneck 的處理方式：提高 GPU/TPU/HBM 頻寬與容量，並透過權重/KV Cache 量化降低每 token 需要搬移的資料量。

新來源補充未來解法包括 HBM4、TPU 8i SRAM/HBM、LPU on-chip SRAM、光學互聯與量化；但 35x/20x/80% 等數字均待核驗。