AI 硬體架構入門|優化算力資源應用與模型訓練效率

    Token 成本不斷增加,越來越多團隊開始嘗試本地大型語言模型部署。但要真正落地,你會發現瓶頸不在程式碼,硬體架構才是決定效能的關鍵。這門課帶你補齊硬體架構的底層知識,讓算力資源用在刀口上!

    72
    5.0
    • 掌握 AI 大語言模型硬體架構,熟悉 CPU、GPU 等組件運作。了解儲存、網絡架構作用,搭建扎實知識框架。

    • 掌握硬體核心技術實際操作。熟練運用 GPU 編碼,優化計算性能;駕馭硬體加速技術,提升模型訓練速度。

    • 在數據中心維運、網路部署、AI 開發及雲計算資源管理等不同情境中,知道如何依據具體需求,靈活運用硬體架構技術知識。

    US$46.79

    Click for settings

    00:00
    00:00
    00:00

     

     
     

    當 Token 成本越來越高
    企業開始轉向 本地化大模型部署

    要讓大型語言模型高效發揮,必須搞懂 GPU 與硬體架構
    讓算力資源用在刀口上

    Token 成本不斷增加,越來越多團隊開始嘗試本地大型語言模型部署。
    但要真正落地,你會發現瓶頸不在程式碼,硬體架構才是決定效能的關鍵。

    這門課從 NVIDIA H100 GPU 的內部設計 到 DGX 伺服器與分布式 IO 架構,再到 GPU 集群網路與算力調度,帶你補齊硬體架構的底層知識。

    • GPU 基礎架構:看懂 H100 的核心、快取與運算原理

    • 伺服器設計:理解 DGX 架構與 CPU/GPU 協同

    • 分布式 IO:學會 GPU 之間如何高效通信

    • 集群網路設計:建構可支撐大規模訓練的環境

    • 算力調度與虛擬化:提升 GPU 資源利用率,降低運行成本

    補齊硬體知識,讓模型訓練與推理更穩定、省資源

    在有限 GPU 資源下,跑出最佳效能!

    ❗ 解決你的核心困惑

    在 AI 開發和運維工作中,這些問題是否讓你困擾不已?

    🔧 效能出問題卻無法排查問題根源

    不了解伺服器架構,維運時 GPU 閒置、延遲飆高,只能靠重啟或猜測解決
    ⭢ 從 H100 → DGX → 集群架構,完整看懂硬體組件的作用與關係,才能快速定位問題

    📡 GPU 算力強,卻被網路拖慢

    處理網路請求時,網路/ IO 傳不上來GPU 一直閒置,效能白白浪費
    學會 分布式訓練 IO 體系、GPU 集群網路設計,讓你學會如何優化網路架構。

    💻 只會寫代碼,不懂底層運算原理

    只會寫代碼,不清楚底層運算邏輯,演算法再優化也無法榨乾效能
    ⭢ 從 GPU 核心架構、快取機制到張量運算單元,理解代碼背後的硬體運作,才寫得出跑得快的程式

    ⚙️ 算力資源調度效率低下

    GPU 很貴卻常常用不滿,利用率不到 50%?
    ⭢ 學會 GPU 虛擬化技術、KVM 直通模式、K8s 容器調度,讓算力資源發揮最大價值。

    🎯 五大核心模組

    從單一 GPU 到分布式集群,循序漸進掌握 AI 硬體架構全貌:

    🔬 GPU 基礎架構模組

    深入 NVIDIA H100 內部架構,到快取與張量運算,強化你對 GPU 效能瓶頸與優化手段的理解

    H100 基本架構SM 流式多處理器緩存機制TMA 原理

    🖥️ GPU 伺服器架構模組

    解析 DGX 與伺服器設計,學會 CPU ↔ GPU 協同與資料流轉,出問題時能快速定位瓶頸

    DGX 伺服器架構AMD 處理器架構PCIE-SwitchNVLink-Switch

    📡 分布式 IO 體系模組

    從 MagnumIO 到 RDMA,學會 GPU ↔ GPU 高速通信,避免算力閒置在等資料

    MagnumIO 體系GPU Direct 通信RDMA 協議跨伺服器通信

    🌐 GPU 集群網路設計模組

    設計「三張網路」與連接方案,打造能撐起 大規模模型訓練 的 GPU 集群基礎

    三張網路設計IB 與乙太網方案BMC 集群管理IPMI 實現

    ⚡ GPU 虛擬化與調度模組

    從 KVM 到 K8s,掌握 GPU 虛擬化與調度技術,把昂貴的算力發揮到極致

    算力調度技術KVM 直通模式租戶獨佔GPUK8s 容器調度

    ⭐ 教學特色

    🔬 直擊真實痛點

    從 GPU 閒置、效能異常、IO 瓶頸到算力利用率低,維運實務最常遇到的問題,逐一拆解並提供對應解法。

    📈 循序漸進的學習路徑

    從單一 GPU → 伺服器 → IO 體系 → 集群網路 → 虛擬化,按邏輯順序建立完整知識體系。

    ⚡ 深度剖析真實案例

    透過 NVIDIA H100 GPU、DGX 伺服器、MagnumIO 通信架構 與 K8s 資源調度 等案例,完整串起硬體設計、系統運作與資源管理的關鍵環節,讓你真正理解每個組件如何協同運作。

    🎯 學習成果

    掌握 GPU 運算核心

    理解 H100 架構、快取與張量運算原理,清楚程式碼在底層如何執行,能判斷效能卡在哪。

    具備伺服器與集群視角

    從單機 DGX 伺服器到多機集群,理解 CPU/GPU 協同與網路通信機制,能在維運時快速定位問題。

    提出並實踐優化方案

    學會分布式 IO 體系、GPU Direct、RDMA 協議等技術,能辨識效能瓶頸並給出具體優化解法。

    提升 GPU 資源利用率

    掌握虛擬化、KVM 直通與 K8s 容器調度,將昂貴的 GPU 資源切分合理分配,讓算力不再被浪費。

    👨‍🏫 講師介紹

    講師介紹:崔皓

    崔皓老師

    崔皓老師 擁有超過 22 年 的系統架構與 AI 技術經驗,專注於生成式 AI 和分布式架構相關領域。從系統底層到應用層面,具備全方位的技術視野和豐富的實戰經驗。

    💼 豐富實戰經驗

    曾在惠普中國擔任系統架構師,成功領導多個企業級項目。對 AI 硬體架構、分布式系統設計有著深刻理解,能為學員提供業界最前沿的技術知識。

    📚 權威技術著作

    《LangChain實戰:大模型應用開發實例》、《分布式架構原理與實踐》、《大模型定制開發》等專業著作,將實踐經驗轉化為系統性知識。

    🎯 深入淺出教學

    擅長將複雜的硬體架構知識,用生動易懂的方式講解。通過真實案例和實際操作,確保學員真正理解並能實際應用。

    跟隨崔皓老師學習,你將獲得紮實的 AI 硬體架構基礎,在 AI 領域建立核心競爭優勢。

    當 AI 部署逐漸轉向本地化,搞懂 AI 硬體架構

    讓你能排查效能瓶頸、優化資源利用率,成為解決問題的關鍵角色。

    Content

    • 1-1
      AI大模型硬體架構-課程介紹
    • 1-2
      GPU初登場-英偉達H100基本架構與CPU通訊方式介紹
    • 1-3
      英偉達H100-GPU核心詳解-運算控制與緩存
    • 1-4
      SM流式多處理器內部架構-從指令快取到運算單元
    • 1-5
      英偉達H100快取機制梳理-指令快取與資料緩存
    • 1-6
      英偉達H100提升運算效率-TMA原理解析
    • 1-7
      GPU多組用戶實作-從Ampere架構到Hopper架構
    • 1-8
      GPU內部架構以及運作原理總結

    Preview

    FAQ

    如果您購買的是募資課程,請在課程的【簡介】中查看開課時間,募資課程將於開課時間所述日期開放同學上課。

     

    若您購買的是一般課程(開放上課課程),則在購買完成後可以立即開始觀看。

     

    所有線上課程皆不受時間限制,享無限次永久觀看!

    Recommendations

    Pre-Purchase Q&A

    Luffy Mchd
    Luffy Mchd

    能不能開與研模型企業等級落地部署的框架?vllm/tersorRT/sglang等經驗分享與參數調優

    崔皓
    崔皓

    很高兴看到你的回复,你的建议非常宝贵,这部分也是近半年我在做企业咨询的时候常常被问到的问题。我会与平台老师进行商讨。另外,问一下您的岗位是运维工程师还是开发工程师。

    我已经录制完成运维工程师的一门大课。涉及的范围比较广,不知道是否与你的需求向切合。

    分成几个部分, 这里可以先给你剧透一下。我把新课的内容放到图片了,希望与你有更多的交流,再次感谢你的留言。

     

     

    Sales Plans