Token 成本不斷增加,越來越多團隊開始嘗試本地大型語言模型部署。
但要真正落地,你會發現瓶頸不在程式碼,硬體架構才是決定效能的關鍵。
這門課從 NVIDIA H100 GPU 的內部設計 到 DGX 伺服器與分布式 IO 架構,再到 GPU 集群網路與算力調度,帶你補齊硬體架構的底層知識。
GPU 基礎架構:看懂 H100 的核心、快取與運算原理
伺服器設計:理解 DGX 架構與 CPU/GPU 協同
分布式 IO:學會 GPU 之間如何高效通信
集群網路設計:建構可支撐大規模訓練的環境
算力調度與虛擬化:提升 GPU 資源利用率,降低運行成本
補齊硬體知識,讓模型訓練與推理更穩定、省資源
在有限 GPU 資源下,跑出最佳效能!
❗ 解決你的核心困惑
在 AI 開發和運維工作中,這些問題是否讓你困擾不已?
🔧 效能出問題卻無法排查問題根源
不了解伺服器架構,維運時 GPU 閒置、延遲飆高,只能靠重啟或猜測解決
⭢ 從 H100 → DGX → 集群架構,完整看懂硬體組件的作用與關係,才能快速定位問題
📡 GPU 算力強,卻被網路拖慢
處理網路請求時,網路/ IO 傳不上來GPU 一直閒置,效能白白浪費
⭢ 學會 分布式訓練 IO 體系、GPU 集群網路設計,讓你學會如何優化網路架構。
💻 只會寫代碼,不懂底層運算原理
只會寫代碼,不清楚底層運算邏輯,演算法再優化也無法榨乾效能
⭢ 從 GPU 核心架構、快取機制到張量運算單元,理解代碼背後的硬體運作,才寫得出跑得快的程式
⚙️ 算力資源調度效率低下
GPU 很貴卻常常用不滿,利用率不到 50%?
⭢ 學會 GPU 虛擬化技術、KVM 直通模式、K8s 容器調度,讓算力資源發揮最大價值。
🎯 五大核心模組
從單一 GPU 到分布式集群,循序漸進掌握 AI 硬體架構全貌:
🔬 GPU 基礎架構模組
深入 NVIDIA H100 內部架構,到快取與張量運算,強化你對 GPU 效能瓶頸與優化手段的理解
🖥️ GPU 伺服器架構模組
解析 DGX 與伺服器設計,學會 CPU ↔ GPU 協同與資料流轉,出問題時能快速定位瓶頸
📡 分布式 IO 體系模組
從 MagnumIO 到 RDMA,學會 GPU ↔ GPU 高速通信,避免算力閒置在等資料
🌐 GPU 集群網路設計模組
設計「三張網路」與連接方案,打造能撐起 大規模模型訓練 的 GPU 集群基礎
⚡ GPU 虛擬化與調度模組
從 KVM 到 K8s,掌握 GPU 虛擬化與調度技術,把昂貴的算力發揮到極致
⭐ 教學特色
🔬 直擊真實痛點
從 GPU 閒置、效能異常、IO 瓶頸到算力利用率低,維運實務最常遇到的問題,逐一拆解並提供對應解法。
📈 循序漸進的學習路徑
從單一 GPU → 伺服器 → IO 體系 → 集群網路 → 虛擬化,按邏輯順序建立完整知識體系。
⚡ 深度剖析真實案例
透過 NVIDIA H100 GPU、DGX 伺服器、MagnumIO 通信架構 與 K8s 資源調度 等案例,完整串起硬體設計、系統運作與資源管理的關鍵環節,讓你真正理解每個組件如何協同運作。
🎯 學習成果
✅ 掌握 GPU 運算核心
理解 H100 架構、快取與張量運算原理,清楚程式碼在底層如何執行,能判斷效能卡在哪。
✅ 具備伺服器與集群視角
從單機 DGX 伺服器到多機集群,理解 CPU/GPU 協同與網路通信機制,能在維運時快速定位問題。
✅ 提出並實踐優化方案
學會分布式 IO 體系、GPU Direct、RDMA 協議等技術,能辨識效能瓶頸並給出具體優化解法。
✅ 提升 GPU 資源利用率
掌握虛擬化、KVM 直通與 K8s 容器調度,將昂貴的 GPU 資源切分合理分配,讓算力不再被浪費。
👨🏫 講師介紹
講師介紹:崔皓
崔皓老師 擁有超過 22 年 的系統架構與 AI 技術經驗,專注於生成式 AI 和分布式架構相關領域。從系統底層到應用層面,具備全方位的技術視野和豐富的實戰經驗。
💼 豐富實戰經驗
曾在惠普中國擔任系統架構師,成功領導多個企業級項目。對 AI 硬體架構、分布式系統設計有著深刻理解,能為學員提供業界最前沿的技術知識。
📚 權威技術著作
《LangChain實戰:大模型應用開發實例》、《分布式架構原理與實踐》、《大模型定制開發》等專業著作,將實踐經驗轉化為系統性知識。
🎯 深入淺出教學
擅長將複雜的硬體架構知識,用生動易懂的方式講解。通過真實案例和實際操作,確保學員真正理解並能實際應用。
跟隨崔皓老師學習,你將獲得紮實的 AI 硬體架構基礎,在 AI 領域建立核心競爭優勢。
當 AI 部署逐漸轉向本地化,搞懂 AI 硬體架構
讓你能排查效能瓶頸、優化資源利用率,成為解決問題的關鍵角色。