AI記憶體階層化

定義

AI 記憶體階層化是指 AI 系統不再只依賴單一記憶體或儲存層，而是依資料熱度、容量需求、延遲需求與讀寫模式，把資料放在 HBM、HBF、NAND Flash/SSD 或其他儲存層中。

為什麼重要

AI 訓練與推論對記憶體的需求不同：訓練更需要低延遲、高寫入耐久與高速中間資料交換；推論則常受模型權重容量、KV cache 與讀取頻寬限制。
階層化可把昂貴、容量有限的 HBM 留給熱資料，把較便宜、大容量的 HBF/NAND 用於暖資料，可能改善 TCO。
對投資分析而言，階層化會重新分配價值：HBM 供應商、NAND 供應商、封裝廠與系統架構商的角色會改變。

簡化架構

熱資料：HBM
  - 低延遲
  - 高頻寬
  - 訓練/即時運算中間資料
 
暖資料：HBF
  - 高容量
  - 高讀取頻寬
  - 模型權重 / shared KV cache / 推論資料
 
中階/擴展層：Stacked GDDR / CXL Memory / LPDDR / ZAM
  - 成本、容量、功耗或資源池化折衷
  - KV cache、批次處理、多 GPU 推論、邊緣或能耗敏感場景
 
冷資料：高階 SSD / 傳統儲存
  - 更低成本
  - 更高容量
  - 資料集、模型權重、MoE 專家權重、長期儲存
 
資料搬移優化：PIM
  - 把運算移近記憶體
  - 降低 GEMV/矩陣運算資料搬移能耗

來源

生產約束下的階層化

在供給受限時，階層化不只是性能最佳化，也是產能配置策略：HBM 保留給熱資料與訓練；HBF / LPDDR / Stacked GDDR 承接暖資料與推論權重；CXL 改善有效容量；SSD 承接冷資料與最低成本容量。這會讓 AI記憶體階層化與半導體產線配置直接相連。

RAM 短缺下的解法分層

新增來源把記憶體階層化明確連到短缺解法：HBM 負責熱資料與最高頻寬；HBF / LPDDR / stacked GDDR 負責中階或暖資料；CXL memory pooling 提高既有記憶體利用率；高階 SSD / NAND 承接冷資料與 offload；PIM 降低資料搬移。這使階層化不只是性能架構，也是供給約束下的產能替代策略。

KV Cache 與 decode path

新來源將 KV Cache 明確放入 AI 記憶體階層：hot decode path 需要高頻寬低延遲記憶體，長上下文與多租戶 serving 則需要更大容量與 offload 層。

分層 KV Cache

新來源補充分層 KV Cache：hot cache 留在 HBM，warm/cold cache 可嘗試移至 CPU RAM、CXL、SSD 或網路儲存；但每層的 latency、bandwidth 與 p99 影響不同。

Roadmap 中的記憶體階層

新來源補充未來 LLM 推論 memory hierarchy 可能包含 HBM4、on-chip SRAM、CPU/CXL/SSD/HBF/flash network 與遠端 KV storage；但 hot KV Cache 是否能離開 HBM/SRAM 需看 latency。

SFLAB Brain

Explorer

AI記憶體階層化

AI記憶體階層化

定義

為什麼重要

簡化架構

相關頁面

來源

生產約束下的階層化

RAM 短缺下的解法分層

KV Cache 與 decode path

分層 KV Cache

Roadmap 中的記憶體階層

Graph View

Table of Contents

Backlinks