Language Processing Unit

Language Processing Unit（LPU）是來源中用來描述專注 LLM decode phase 的推論加速器概念。來源主張其以大量 on-chip SRAM 降低外部記憶體等待，改善記憶體頻寬瓶頸。

潛在優勢

LPU 是否能替代或補充 GPU，取決於模型支援、batching、long-context KV Cache、compiler、serving ecosystem 與總成本。來源的 35 倍每兆瓦吞吐量需核驗。