AI記憶體階層化
定義
AI 記憶體階層化是指 AI 系統不再只依賴單一記憶體或儲存層,而是依資料熱度、容量需求、延遲需求與讀寫模式,把資料放在 HBM、HBF、NAND Flash/SSD 或其他儲存層中。
為什麼重要
- AI 訓練與推論對記憶體的需求不同:訓練更需要低延遲、高寫入耐久與高速中間資料交換;推論則常受模型權重容量、KV cache 與讀取頻寬限制。
- 階層化可把昂貴、容量有限的 HBM 留給熱資料,把較便宜、大容量的 HBF/NAND 用於暖資料,可能改善 TCO。
- 對投資分析而言,階層化會重新分配價值:HBM 供應商、NAND 供應商、封裝廠與系統架構商的角色會改變。
簡化架構
熱資料:HBM
- 低延遲
- 高頻寬
- 訓練/即時運算中間資料
暖資料:HBF
- 高容量
- 高讀取頻寬
- 模型權重 / shared KV cache / 推論資料
中階/擴展層:Stacked GDDR / CXL Memory / LPDDR / ZAM
- 成本、容量、功耗或資源池化折衷
- KV cache、批次處理、多 GPU 推論、邊緣或能耗敏感場景
冷資料:高階 SSD / 傳統儲存
- 更低成本
- 更高容量
- 資料集、模型權重、MoE 專家權重、長期儲存
資料搬移優化:PIM
- 把運算移近記憶體
- 降低 GEMV/矩陣運算資料搬移能耗相關頁面
來源
生產約束下的階層化
在供給受限時,階層化不只是性能最佳化,也是產能配置策略:HBM 保留給熱資料與訓練;HBF / LPDDR / Stacked GDDR 承接暖資料與推論權重;CXL 改善有效容量;SSD 承接冷資料與最低成本容量。這會讓 AI記憶體階層化 與半導體產線配置直接相連。
RAM 短缺下的解法分層
新增來源把記憶體階層化明確連到短缺解法:HBM 負責熱資料與最高頻寬;HBF / LPDDR / stacked GDDR 負責中階或暖資料;CXL memory pooling 提高既有記憶體利用率;高階 SSD / NAND 承接冷資料與 offload;PIM 降低資料搬移。這使階層化不只是性能架構,也是供給約束下的產能替代策略。
KV Cache 與 decode path
新來源將 KV Cache 明確放入 AI 記憶體階層:hot decode path 需要高頻寬低延遲記憶體,長上下文與多租戶 serving 則需要更大容量與 offload 層。
分層 KV Cache
新來源補充分層 KV Cache:hot cache 留在 HBM,warm/cold cache 可嘗試移至 CPU RAM、CXL、SSD 或網路儲存;但每層的 latency、bandwidth 與 p99 影響不同。
Roadmap 中的記憶體階層
新來源補充未來 LLM 推論 memory hierarchy 可能包含 HBM4、on-chip SRAM、CPU/CXL/SSD/HBF/flash network 與遠端 KV storage;但 hot KV Cache 是否能離開 HBM/SRAM 需看 latency。