AI記憶體階層化

定義

AI 記憶體階層化是指 AI 系統不再只依賴單一記憶體或儲存層,而是依資料熱度、容量需求、延遲需求與讀寫模式,把資料放在 HBMHBFNAND Flash/SSD 或其他儲存層中。

為什麼重要

  • AI 訓練與推論對記憶體的需求不同:訓練更需要低延遲、高寫入耐久與高速中間資料交換;推論則常受模型權重容量、KV cache 與讀取頻寬限制。
  • 階層化可把昂貴、容量有限的 HBM 留給熱資料,把較便宜、大容量的 HBF/NAND 用於暖資料,可能改善 TCO。
  • 對投資分析而言,階層化會重新分配價值:HBM 供應商、NAND 供應商、封裝廠與系統架構商的角色會改變。

簡化架構

熱資料:HBM
  - 低延遲
  - 高頻寬
  - 訓練/即時運算中間資料
 
暖資料:HBF
  - 高容量
  - 高讀取頻寬
  - 模型權重 / shared KV cache / 推論資料
 
中階/擴展層:Stacked GDDR / CXL Memory / LPDDR / ZAM
  - 成本、容量、功耗或資源池化折衷
  - KV cache、批次處理、多 GPU 推論、邊緣或能耗敏感場景
 
冷資料:高階 SSD / 傳統儲存
  - 更低成本
  - 更高容量
  - 資料集、模型權重、MoE 專家權重、長期儲存
 
資料搬移優化:PIM
  - 把運算移近記憶體
  - 降低 GEMV/矩陣運算資料搬移能耗

相關頁面

來源

生產約束下的階層化

在供給受限時,階層化不只是性能最佳化,也是產能配置策略:HBM 保留給熱資料與訓練;HBF / LPDDR / Stacked GDDR 承接暖資料與推論權重;CXL 改善有效容量;SSD 承接冷資料與最低成本容量。這會讓 AI記憶體階層化 與半導體產線配置直接相連。

RAM 短缺下的解法分層

新增來源把記憶體階層化明確連到短缺解法:HBM 負責熱資料與最高頻寬;HBF / LPDDR / stacked GDDR 負責中階或暖資料;CXL memory pooling 提高既有記憶體利用率;高階 SSD / NAND 承接冷資料與 offload;PIM 降低資料搬移。這使階層化不只是性能架構,也是供給約束下的產能替代策略。

KV Cache 與 decode path

新來源將 KV Cache 明確放入 AI 記憶體階層:hot decode path 需要高頻寬低延遲記憶體,長上下文與多租戶 serving 則需要更大容量與 offload 層。

分層 KV Cache

新來源補充分層 KV Cache:hot cache 留在 HBM,warm/cold cache 可嘗試移至 CPU RAM、CXL、SSD 或網路儲存;但每層的 latency、bandwidth 與 p99 影響不同。

Roadmap 中的記憶體階層

新來源補充未來 LLM 推論 memory hierarchy 可能包含 HBM4、on-chip SRAM、CPU/CXL/SSD/HBF/flash network 與遠端 KV storage;但 hot KV Cache 是否能離開 HBM/SRAM 需看 latency。