Mixture of Experts
Mixture of Experts(MoE)是一類模型架構:模型包含多個 expert,但每個 token 或請求只啟用部分 expert,以降低每次推論實際使用的計算量。
對推論的影響
MoE 可能降低每 token compute,但也帶來 expert routing、load balancing、memory placement、網路通信與 serving 複雜度。對 KV Cache 與記憶體需求的淨影響需依模型實作與部署架構判斷。
來源主張
來源主張 Meta Platforms 的 Llama 4 系列與下一代模型將持續優化 MoE,僅啟動部分參數以降低推論時的記憶體與計算需求。此敘述需核驗模型文件與 benchmark。