本地 LLM 效能提升｜硬體架構 x 推理優化

優惠名額有限，售完為止！

包含 2 堂課

US$157.57

US$110.42

內容簡介

按一下進入設定

00:00

當 Token 成本越來越高
企業開始轉向本地化大模型部署

要讓大型語言模型高效發揮，必須搞懂 GPU 與硬體架構
讓算力資源用在刀口上

Token 成本不斷增加，越來越多團隊開始嘗試本地大型語言模型部署。
但要真正落地，你會發現瓶頸不在程式碼，硬體架構才是決定效能的關鍵。

這門課從 NVIDIA H100 GPU 的內部設計到 DGX 伺服器與分布式 IO 架構，再到 GPU 集群網路與算力調度，帶你補齊硬體架構的底層知識。

GPU 基礎架構：看懂 H100 的核心、快取與運算原理
伺服器設計：理解 DGX 架構與 CPU/GPU 協同
分布式 IO：學會 GPU 之間如何高效通信
集群網路設計：建構可支撐大規模訓練的環境
算力調度與虛擬化：提升 GPU 資源利用率，降低運行成本

補齊硬體知識，讓模型訓練與推理更穩定、省資源

在有限 GPU 資源下，跑出最佳效能！

❗ 解決你的核心困惑

在 AI 開發和運維工作中，這些問題是否讓你困擾不已？

🔧 效能出問題卻無法排查問題根源

不了解伺服器架構，維運時 GPU 閒置、延遲飆高，只能靠重啟或猜測解決
⭢ 從 H100 → DGX → 集群架構，完整看懂硬體組件的作用與關係，才能快速定位問題

📡 GPU 算力強，卻被網路拖慢

處理網路請求時，網路/ IO 傳不上來GPU 一直閒置，效能白白浪費
⭢ 學會 分布式訓練 IO 體系、GPU 集群網路設計，讓你學會如何優化網路架構。

💻 只會寫代碼，不懂底層運算原理

只會寫代碼，不清楚底層運算邏輯，演算法再優化也無法榨乾效能
⭢ 從 GPU 核心架構、快取機制到張量運算單元，理解代碼背後的硬體運作，才寫得出跑得快的程式

⚙️ 算力資源調度效率低下

GPU 很貴卻常常用不滿，利用率不到 50%？
⭢ 學會 GPU 虛擬化技術、KVM 直通模式、K8s 容器調度，讓算力資源發揮最大價值。

🎯 五大核心模組

從單一 GPU 到分布式集群，循序漸進掌握 AI 硬體架構全貌：

🔬 GPU 基礎架構模組

深入 NVIDIA H100 內部架構，到快取與張量運算，強化你對 GPU 效能瓶頸與優化手段的理解

H100 基本架構SM 流式多處理器緩存機制TMA 原理

🖥️ GPU 伺服器架構模組

解析 DGX 與伺服器設計，學會 CPU ↔ GPU 協同與資料流轉，出問題時能快速定位瓶頸

DGX 伺服器架構AMD 處理器架構PCIE-SwitchNVLink-Switch

📡 分布式 IO 體系模組

從 MagnumIO 到 RDMA，學會 GPU ↔ GPU 高速通信，避免算力閒置在等資料

MagnumIO 體系GPU Direct 通信RDMA 協議跨伺服器通信

🌐 GPU 集群網路設計模組

設計「三張網路」與連接方案，打造能撐起 大規模模型訓練 的 GPU 集群基礎

三張網路設計IB 與乙太網方案BMC 集群管理IPMI 實現

⚡ GPU 虛擬化與調度模組

從 KVM 到 K8s，掌握 GPU 虛擬化與調度技術，把昂貴的算力發揮到極致

算力調度技術KVM 直通模式租戶獨佔GPUK8s 容器調度

⭐ 教學特色

🔬 直擊真實痛點

從 GPU 閒置、效能異常、IO 瓶頸到算力利用率低，維運實務最常遇到的問題，逐一拆解並提供對應解法。

📈 循序漸進的學習路徑

從單一 GPU → 伺服器 → IO 體系 → 集群網路 → 虛擬化，按邏輯順序建立完整知識體系。

⚡ 深度剖析真實案例

透過 NVIDIA H100 GPU、DGX 伺服器、MagnumIO 通信架構 與 K8s 資源調度 等案例，完整串起硬體設計、系統運作與資源管理的關鍵環節，讓你真正理解每個組件如何協同運作。

🎯 學習成果

✅ 掌握 GPU 運算核心

理解 H100 架構、快取與張量運算原理，清楚程式碼在底層如何執行，能判斷效能卡在哪。

✅ 具備伺服器與集群視角

從單機 DGX 伺服器到多機集群，理解 CPU/GPU 協同與網路通信機制，能在維運時快速定位問題。

✅ 提出並實踐優化方案

學會分布式 IO 體系、GPU Direct、RDMA 協議等技術，能辨識效能瓶頸並給出具體優化解法。

✅ 提升 GPU 資源利用率

掌握虛擬化、KVM 直通與 K8s 容器調度，將昂貴的 GPU 資源切分合理分配，讓算力不再被浪費。

👨‍🏫 講師介紹

講師介紹：崔皓

崔皓老師 擁有超過 22 年 的系統架構與 AI 技術經驗，專注於生成式 AI 和分布式架構相關領域。從系統底層到應用層面，具備全方位的技術視野和豐富的實戰經驗。

💼 豐富實戰經驗

曾在惠普中國擔任系統架構師，成功領導多個企業級項目。對 AI 硬體架構、分布式系統設計有著深刻理解，能為學員提供業界最前沿的技術知識。

📚 權威技術著作

《LangChain實戰：大模型應用開發實例》、《分布式架構原理與實踐》、《大模型定制開發》等專業著作，將實踐經驗轉化為系統性知識。

🎯 深入淺出教學

擅長將複雜的硬體架構知識，用生動易懂的方式講解。通過真實案例和實際操作，確保學員真正理解並能實際應用。

跟隨崔皓老師學習，你將獲得紮實的 AI 硬體架構基礎，在 AI 領域建立核心競爭優勢。

當 AI 部署逐漸轉向本地化，搞懂 AI 硬體架構

讓你能排查效能瓶頸、優化資源利用率，成為解決問題的關鍵角色。

語言

幣別

語言

幣別

本地 LLM 效能提升｜硬體架構 x 推理優化

相關組合

內容簡介

當 Token 成本越來越高
企業開始轉向本地化大模型部署

❗ 解決你的核心困惑

🔧 效能出問題卻無法排查問題根源

📡 GPU 算力強，卻被網路拖慢

💻 只會寫代碼，不懂底層運算原理

⚙️ 算力資源調度效率低下

🎯 五大核心模組

🔬 GPU 基礎架構模組

🖥️ GPU 伺服器架構模組

📡 分布式 IO 體系模組

🌐 GPU 集群網路設計模組

⚡ GPU 虛擬化與調度模組

⭐ 教學特色

🔬 直擊真實痛點

📈 循序漸進的學習路徑

⚡ 深度剖析真實案例

🎯 學習成果

✅ 掌握 GPU 運算核心

✅ 具備伺服器與集群視角

✅ 提出並實踐優化方案

✅ 提升 GPU 資源利用率

👨‍🏫 講師介紹

講師介紹：崔皓

💼 豐富實戰經驗

📚 權威技術著作

🎯 深入淺出教學

查看其他內容簡介

本地 LLM 效能提升｜硬體架構 x 推理優化

相關組合

內容簡介

當 Token 成本越來越高企業開始轉向 本地化大模型部署

❗ 解決你的核心困惑

🔧 效能出問題卻無法排查問題根源

📡 GPU 算力強，卻被網路拖慢

💻 只會寫代碼，不懂底層運算原理

⚙️ 算力資源調度效率低下

🎯 五大核心模組

🔬 GPU 基礎架構模組

🖥️ GPU 伺服器架構模組

📡 分布式 IO 體系模組

🌐 GPU 集群網路設計模組

⚡ GPU 虛擬化與調度模組

⭐ 教學特色

🔬 直擊真實痛點

📈 循序漸進的學習路徑

⚡ 深度剖析真實案例

🎯 學習成果

✅ 掌握 GPU 運算核心

✅ 具備伺服器與集群視角

✅ 提出並實踐優化方案

✅ 提升 GPU 資源利用率

👨‍🏫 講師介紹

講師介紹：崔皓

💼 豐富實戰經驗

📚 權威技術著作

🎯 深入淺出教學

查看其他內容簡介

當 Token 成本越來越高
企業開始轉向本地化大模型部署