LLM 推論解決方案生態系與供應鏈
摘要
這份使用者提供的研究筆記補足 2026-05-18-LLM推論優化技術與大型科技公司作法 未完整展開的產業生態。核心觀點是:LLM推論 瓶頸不能只看模型公司或單一 GPU 廠商,而要拆成多層互補角色:
GPU / accelerator:NVIDIA、AMD、Intel
雲端自研 ASIC:AWS Trainium / Inferentia、Microsoft Maia、Google TPU
客製 ASIC / 互連:Broadcom
專用推論加速器:Cerebras、SambaNova、Tenstorrent、Groq、FuriosaAI、d-Matrix、Lightmatter
製造與元件:TSMC、SK hynix、Samsung、Micron、ASML
系統整合:Dell、HPE、Supermicro、Lenovo
Serving software:vLLM、TensorRT-LLM、SGLang來源把這些參與者共同連到三個技術問題:記憶體頻寬瓶頸、KV Cache 成長,以及自迴歸 decode path 的順序性限制。
來源可信度註記
本筆記未附官方公告、產品資料、benchmark、併購文件或論文連結,因此以下高影響敘述均先保存為「來源主張 / 待核驗」:
- AMD Instinct MI350X、HBM3E 288GB、ROCm 推論優化與長上下文表現。
- Intel Gaudi 3、OpenVINO、專用 attention 單元與推測解碼支援。
- AWS Trainium3 / Inferentia 的製程、推論角色與 KV Cache offload 描述。
- Microsoft Maia 200 於 2026 年初推出、推論專用、SRAM 與 FP4/FP8 優化。
- Broadcom 與 OpenAI 客製晶片合作、PCIe/CXL 互連對 KV Cache 存取的作用。
- Cerebras WSE-3 電晶體數、21 PB/s 頻寬與長序列推論優勢。
- Groq 已於 2025 年底被 NVIDIA 收購。
- TSMC 掌握 90% 以上先進節點產能、HBM4 / System-on-Wafer 對推論記憶體的直接貢獻。
- 2026 年 HBM4 已大幅增加容量,以及各記憶體供應商量產狀態。
消化後的 Wiki 更新
- 新增 AI推論硬體生態系,把推論解法從「優化技術堆疊」擴展為「硬體、雲端 ASIC、專用加速器、供應鏈、系統整合與軟體」的分層地圖。
- 新增 LLM推論解決方案生態系有哪些參與者,保存這次來源對初學者問題的 durable answer。
- 新增 Cerebras Systems、SambaNova Systems、Tenstorrent、Groq、Dell Technologies、Hewlett Packard Enterprise、Supermicro 與 Lenovo 作為 canonical entity seeds。
- 新增 SGLang 作為 serving software concept seed。
- 更新 Advanced Micro Devices、Intel、Amazon Web Services、Microsoft Maia、Broadcom、Taiwan Semiconductor Manufacturing Company、ASML、LLM推論優化技術堆疊 與 大型科技公司如何解決LLM推論瓶頸。
張力與矛盾
- 本來源擴大「參與者」範圍,但多數具體規格與 2026 時點敘述尚未核驗,不能直接升格為確定產業現況。
- 來源把推論加速器、雲端 ASIC 與供應鏈公司放在同一生態圖中,有助於投資 mapping;但價值捕捉不等於技術重要性,系統整合商與供應鏈設備商的毛利、議價能力與收入傳導需分開分析。
- 若 Groq 被 NVIDIA 收購、Maia 200 推論專用或 TSMC 90% 先進節點產能等敘述無法核驗,相關 entity 頁需調整為更保守的「可能參與者」而非已發生事件。
待追問 / 待核驗
- 哪些公司已有公開 LLM inference benchmark,且可跨模型、batch size、context length、latency target 比較?
- 雲端自研 ASIC 主要用於內部 workloads、租戶可用服務,還是少數策略客戶?
- 專用推論加速器是否能在開發者生態、模型支援與供應規模上挑戰 GPU?
- 系統整合商在 AI server 利潤池中的毛利率與客戶黏性是否足以形成獨立投資 thesis?
來源
- 原文保存於
raw/Clippings/2026-05-18-LLM推論解決方案生態系與供應鏈.md。