Language Processing Unit
Language Processing Unit(LPU)是來源中用來描述專注 LLM decode phase 的推論加速器概念。來源主張其以大量 on-chip SRAM 降低外部記憶體等待,改善 記憶體頻寬瓶頸。
潛在優勢
- 對逐 token decode path 最佳化。
- 以 SRAM 減少外部 HBM/DRAM 存取延遲。
- 可能提高每瓦或每兆瓦 tokens throughput。
Caveat
LPU 是否能替代或補充 GPU,取決於模型支援、batching、long-context KV Cache、compiler、serving ecosystem 與總成本。來源的 35 倍每兆瓦吞吐量需核驗。