KV Cache

KV Cache 是 Transformer 模型在推論時保存先前 token 的 key/value states 的快取。它讓模型生成下一個 token 時不必重新計算整段上下文的注意力表示。

為什麼重要

來源主張，生成越長，KV Cache 會隨上下文長度增加，占用更多 GPU VRAM。這會帶來幾個影響：

長上下文或多使用者 serving 更容易受 VRAM 容量限制。
KV Cache 讀寫會增加 memory traffic，影響 tokens per second。
當 KV Cache 太大時，可能造成 OOM，或需要 offload 到較慢的記憶體/儲存層。

與記憶體階層的關係

KV Cache 是理解 AI記憶體階層化的核心：

HBM：低延遲、高頻寬，適合 hot KV cache 與模型權重。
LPDDR / CPU memory：可能作為較便宜但較慢的 offload 層。
CXL Memory：可能作為 pooled memory 或容量延伸層。
高階 SSD / NAND：更適合冷資料、權重載入、MoE expert storage 或低頻 offload，不適合最熱 decode path。
HBF：來源主張中可能作為推論暖資料層，但其實際角色仍需標準、耐久性與 latency/bandwidth 數據驗證。

待核驗

不同模型架構與 attention implementation 下 KV Cache 大小公式。
KV Cache quantization、PagedAttention、eviction、offload 的成本/效益。
KV Cache 是容量瓶頸、頻寬瓶頸還是 latency bottleneck，取決於 batch size、context length 與硬體。

KV Cache 優化方法

新來源補充 KV Cache 的主要優化方向：KV cache quantization、PagedAttention、tiered storage/offloading、MQA/GQA、CPU RAM/SSD/CXL offload 與 network storage offload。但 offload 是否傷害 p99 latency 需實測。

Roadmap 中的 KV Cache

新來源主張未來 KV Cache 解法包括 HBM4 更大容量、on-chip SRAM、TurboQuant 3-bit、PB/EB context storage、prefill/decode disaggregation 與 offload；這些對 p99 latency 與成本的實際效果需核驗。

SFLAB Brain

Explorer

KV Cache

KV Cache

為什麼重要

與記憶體階層的關係

待核驗

KV Cache 優化方法

Roadmap 中的 KV Cache

Graph View

Table of Contents

Backlinks