KV Cache

KV Cache 是 Transformer 模型在推論時保存先前 token 的 key/value states 的快取。它讓模型生成下一個 token 時不必重新計算整段上下文的注意力表示。

為什麼重要

來源主張,生成越長,KV Cache 會隨上下文長度增加,占用更多 GPU VRAM。這會帶來幾個影響:

  • 長上下文或多使用者 serving 更容易受 VRAM 容量限制。
  • KV Cache 讀寫會增加 memory traffic,影響 tokens per second。
  • 當 KV Cache 太大時,可能造成 OOM,或需要 offload 到較慢的記憶體/儲存層。

與記憶體階層的關係

KV Cache 是理解 AI記憶體階層化 的核心:

  • HBM:低延遲、高頻寬,適合 hot KV cache 與模型權重。
  • LPDDR / CPU memory:可能作為較便宜但較慢的 offload 層。
  • CXL Memory:可能作為 pooled memory 或容量延伸層。
  • 高階 SSD / NAND:更適合冷資料、權重載入、MoE expert storage 或低頻 offload,不適合最熱 decode path。
  • HBF:來源主張中可能作為推論暖資料層,但其實際角色仍需標準、耐久性與 latency/bandwidth 數據驗證。

待核驗

  • 不同模型架構與 attention implementation 下 KV Cache 大小公式。
  • KV Cache quantization、PagedAttention、eviction、offload 的成本/效益。
  • KV Cache 是容量瓶頸、頻寬瓶頸還是 latency bottleneck,取決於 batch size、context length 與硬體。

KV Cache 優化方法

新來源補充 KV Cache 的主要優化方向:KV cache quantization、PagedAttention、tiered storage/offloading、MQA/GQA、CPU RAM/SSD/CXL offload 與 network storage offload。但 offload 是否傷害 p99 latency 需實測。

Roadmap 中的 KV Cache

新來源主張未來 KV Cache 解法包括 HBM4 更大容量、on-chip SRAM、TurboQuant 3-bit、PB/EB context storage、prefill/decode disaggregation 與 offload;這些對 p99 latency 與成本的實際效果需核驗。