本地 LLM 效能提升|硬體架構 x 推理優化

倒數 28 天 08 小時 46 分 04 秒

包含 2 堂課

US$157.82
US$94.75

內容簡介

按一下 進入設定

00:00
00:00
00:00

 

 
 

當 Token 成本越來越高
企業開始轉向 本地化大模型部署

要讓大型語言模型高效發揮,必須搞懂 GPU 與硬體架構
讓算力資源用在刀口上

Token 成本不斷增加,越來越多團隊開始嘗試本地大型語言模型部署。
但要真正落地,你會發現瓶頸不在程式碼,硬體架構才是決定效能的關鍵。

這門課從 NVIDIA H100 GPU 的內部設計 到 DGX 伺服器與分布式 IO 架構,再到 GPU 集群網路與算力調度,帶你補齊硬體架構的底層知識。

  • GPU 基礎架構:看懂 H100 的核心、快取與運算原理

  • 伺服器設計:理解 DGX 架構與 CPU/GPU 協同

  • 分布式 IO:學會 GPU 之間如何高效通信

  • 集群網路設計:建構可支撐大規模訓練的環境

  • 算力調度與虛擬化:提升 GPU 資源利用率,降低運行成本

補齊硬體知識,讓模型訓練與推理更穩定、省資源

在有限 GPU 資源下,跑出最佳效能!

❗ 解決你的核心困惑

在 AI 開發和運維工作中,這些問題是否讓你困擾不已?

🔧 效能出問題卻無法排查問題根源

不了解伺服器架構,維運時 GPU 閒置、延遲飆高,只能靠重啟或猜測解決
⭢ 從 H100 → DGX → 集群架構,完整看懂硬體組件的作用與關係,才能快速定位問題

📡 GPU 算力強,卻被網路拖慢

處理網路請求時,網路/ IO 傳不上來GPU 一直閒置,效能白白浪費
學會 分布式訓練 IO 體系、GPU 集群網路設計,讓你學會如何優化網路架構。

💻 只會寫代碼,不懂底層運算原理

只會寫代碼,不清楚底層運算邏輯,演算法再優化也無法榨乾效能
⭢ 從 GPU 核心架構、快取機制到張量運算單元,理解代碼背後的硬體運作,才寫得出跑得快的程式

⚙️ 算力資源調度效率低下

GPU 很貴卻常常用不滿,利用率不到 50%?
⭢ 學會 GPU 虛擬化技術、KVM 直通模式、K8s 容器調度,讓算力資源發揮最大價值。

🎯 五大核心模組

從單一 GPU 到分布式集群,循序漸進掌握 AI 硬體架構全貌:

🔬 GPU 基礎架構模組

深入 NVIDIA H100 內部架構,到快取與張量運算,強化你對 GPU 效能瓶頸與優化手段的理解

H100 基本架構SM 流式多處理器緩存機制TMA 原理

🖥️ GPU 伺服器架構模組

解析 DGX 與伺服器設計,學會 CPU ↔ GPU 協同與資料流轉,出問題時能快速定位瓶頸

DGX 伺服器架構AMD 處理器架構PCIE-SwitchNVLink-Switch

📡 分布式 IO 體系模組

從 MagnumIO 到 RDMA,學會 GPU ↔ GPU 高速通信,避免算力閒置在等資料

MagnumIO 體系GPU Direct 通信RDMA 協議跨伺服器通信

🌐 GPU 集群網路設計模組

設計「三張網路」與連接方案,打造能撐起 大規模模型訓練 的 GPU 集群基礎

三張網路設計IB 與乙太網方案BMC 集群管理IPMI 實現

⚡ GPU 虛擬化與調度模組

從 KVM 到 K8s,掌握 GPU 虛擬化與調度技術,把昂貴的算力發揮到極致

算力調度技術KVM 直通模式租戶獨佔GPUK8s 容器調度

⭐ 教學特色

🔬 直擊真實痛點

從 GPU 閒置、效能異常、IO 瓶頸到算力利用率低,維運實務最常遇到的問題,逐一拆解並提供對應解法。

📈 循序漸進的學習路徑

從單一 GPU → 伺服器 → IO 體系 → 集群網路 → 虛擬化,按邏輯順序建立完整知識體系。

⚡ 深度剖析真實案例

透過 NVIDIA H100 GPU、DGX 伺服器、MagnumIO 通信架構 與 K8s 資源調度 等案例,完整串起硬體設計、系統運作與資源管理的關鍵環節,讓你真正理解每個組件如何協同運作。

🎯 學習成果

掌握 GPU 運算核心

理解 H100 架構、快取與張量運算原理,清楚程式碼在底層如何執行,能判斷效能卡在哪。

具備伺服器與集群視角

從單機 DGX 伺服器到多機集群,理解 CPU/GPU 協同與網路通信機制,能在維運時快速定位問題。

提出並實踐優化方案

學會分布式 IO 體系、GPU Direct、RDMA 協議等技術,能辨識效能瓶頸並給出具體優化解法。

提升 GPU 資源利用率

掌握虛擬化、KVM 直通與 K8s 容器調度,將昂貴的 GPU 資源切分合理分配,讓算力不再被浪費。

👨‍🏫 講師介紹

講師介紹:崔皓

崔皓老師

崔皓老師 擁有超過 22 年 的系統架構與 AI 技術經驗,專注於生成式 AI 和分布式架構相關領域。從系統底層到應用層面,具備全方位的技術視野和豐富的實戰經驗。

💼 豐富實戰經驗

曾在惠普中國擔任系統架構師,成功領導多個企業級項目。對 AI 硬體架構、分布式系統設計有著深刻理解,能為學員提供業界最前沿的技術知識。

📚 權威技術著作

《LangChain實戰:大模型應用開發實例》、《分布式架構原理與實踐》、《大模型定制開發》等專業著作,將實踐經驗轉化為系統性知識。

🎯 深入淺出教學

擅長將複雜的硬體架構知識,用生動易懂的方式講解。通過真實案例和實際操作,確保學員真正理解並能實際應用。

跟隨崔皓老師學習,你將獲得紮實的 AI 硬體架構基礎,在 AI 領域建立核心競爭優勢。

當 AI 部署逐漸轉向本地化,搞懂 AI 硬體架構

讓你能排查效能瓶頸、優化資源利用率,成為解決問題的關鍵角色。

查看其他內容簡介