AI 推論硬體生態系

核心結論

LLM推論優化技術堆疊 說明「怎麼優化」;本頁補上「誰在生態中提供哪一層能力」。LLM 推論解法不只來自模型公司,也來自硬體、雲端 ASIC、客製 ASIC、專用加速器、製造供應鏈、系統整合商與 serving software 的共同分工。

需求端:模型 API、企業 agent、長上下文應用

Serving 層:vLLM / TensorRT-LLM / SGLang / batching / routing

運算層:GPU、TPU、Gaudi、Trainium、Inferentia、Maia、專用推論晶片

記憶體與互連:HBM、CXL、SRAM、光互連、NVLink / Ethernet / PCIe

製造與系統:TSMC、ASML、記憶體供應商、AI server OEM / ODM

分層地圖

1. 通用 GPU / accelerator

NVIDIA 仍是既有 wiki 中最重要的 GPU 平台方;新來源補充 Advanced Micro DevicesIntel 也要放入推論硬體地圖。這一層的關鍵是 HBM 容量/頻寬、軟體生態、模型支援與資料中心部署規模。

2. 雲端自研 ASIC

Amazon Web Services、Google、Microsoft Maia 等自研晶片代表 hyperscaler 想用垂直整合降低 inference TCO。這一層不一定取代 GPU,而是用於內部 workload、特定模型 serving 或成本敏感的高量推論。

3. 客製 ASIC 與互連

Broadcom 的價值不只在單一加速器,也在 hyperscaler custom ASIC、networking ASIC、PCIe/CXL/光互連等系統層能力。若 LLM decode 被 memory movement 限制,互連與 cache access path 會成為成本與 latency 的重要變數。

4. 專用推論加速器

Cerebras SystemsSambaNova SystemsTenstorrentGroq、FuriosaAI、d-Matrix、Lightmatter 等公司嘗試用晶圓級、資料流、RISC-V、LPU、光子互連或低功耗 ASIC 做差異化。共同挑戰是:能否取得足夠模型支援、開發者工具、供應規模與雲端可用性。

5. 製造、記憶體與設備

Taiwan Semiconductor Manufacturing CompanySK hynixSamsung ElectronicsMicron TechnologyASML 決定先進晶片、HBM 與製程設備供給。這一層影響 Memflation記憶體短缺壓縮硬體毛利率風險 與 AI capex 的交付速度。

6. 系統整合與部署

Dell TechnologiesHewlett Packard EnterpriseSupermicroLenovo 將 GPU/accelerator、網路、電源、散熱與機櫃整合成企業可部署的推論系統。它們不一定掌握最核心 IP,但能影響交付速度、液冷導入、私有部署與企業採購路徑。

投資分析含義

  • 技術瓶頸與利潤池不在同一個地方:晶片可能最關鍵,但系統整合、記憶體、互連與軟體也可能短期受益。
  • 自研 ASIC 會降低 hyperscaler 對外部 GPU 的邊際依賴,但短期通常與 GPU 並存。
  • 專用推論加速器若缺乏軟體生態,可能在 benchmark 之外難以擴大;反之,若某類 workload 形成標準化 serving pattern,低成本 ASIC 可能取得利基。
  • 推論成本下降可能刺激 token demand,讓 Token Economics Flywheel 與上游供應鏈需求同時放大。

待核驗

  • 各公司實際公開產品、出貨、雲端可用性與 benchmark。
  • 自研 ASIC 的內部使用比例與外部租戶可用性。
  • 專用推論加速器的軟體棧、模型支援與客戶採用。
  • AI server OEM / ODM 的毛利率、庫存週期與與 NVIDIA / hyperscaler 的議價能力。