記憶體頻寬瓶頸
記憶體頻寬瓶頸 指系統性能主要受限於資料從記憶體搬到計算單元的速度,而不是計算單元本身的 FLOPS。
在 LLM 推論中的角色
來源主張,在 LLM推論 的 decode phase,每次只生成一個 token,但仍需要讀取大量模型權重與 KV Cache。這使 GPU 計算單元可能等待資料,形成 memory bandwidth bound。
為什麼投資上重要
若 LLM 推論受 memory bandwidth 與 KV Cache 限制,則 AI hardware demand 不只來自 GPU compute,也來自:
- HBM 與高頻寬記憶體;
- advanced packaging / CoWoS 將 accelerator 與 HBM 近距離整合;
- CXL Memory、LPDDR、高階 SSD 等容量延伸與 offload 層;
- Processing-In-Memory 等降低資料搬移的架構;
- 推論 serving 軟體如 continuous batching、quantization、FlashAttention、KV cache management。
Caveat
不是所有推論 workload 都同樣 memory-bound。Prefill、大 batch、短上下文、長上下文、MoE、speculative decoding、不同 quantization 與不同 GPU 架構都會改變瓶頸位置。
量化與硬體升級
新來源補充 memory bandwidth bottleneck 的處理方式:提高 GPU/TPU/HBM 頻寬與容量,並透過權重/KV Cache 量化降低每 token 需要搬移的資料量。
Roadmap 中的記憶體牆解法
新來源補充未來解法包括 HBM4、TPU 8i SRAM/HBM、LPU on-chip SRAM、光學互聯與量化;但 35x/20x/80% 等數字均待核驗。