從模型量化壓縮、注意力機制加速到 vLLM 部署上線,學會診斷推理瓶頸並動手最佳化,讓你的本地模型跑得更快、吃得更少。
看懂 LLM 推理流程的效能瓶頸,知道「慢在哪裡」才能對症下藥
用 AWQ / GPTQ 量化壓縮模型,在精度和速度之間找到最佳平衡
掌握 FlashAttention、PagedAttention 等系統層加速技術的原理與應用
用 vLLM 完成從單機 Docker 到多節點分散式叢集的推理部署
實測比較多種量化方案,用數據選擇最適合你的配置
繁体中文
按一下 进入设定
一年前如果有人跟你說「自己在本地跑 LLM」,你大概會想:何必呢?
模型能力跟商用 API 差一截,環境架設一堆坑,花的時間和硬體成本算下來,還不如直接打 API 省事。
然而,近期情況已經改變,像 Gemma 4 這類開源模型,技術底子直接來自商用模型的同源研究,能力已經不是「堪用」而是「好用」。
另一邊,Anthropic 開始限制訂閱方案被第三方開發工具調用——靠 API 吃到飽的算盤,越來越不確定能打多久。
算一算,自己跑模型反而變成更經濟、更可控的選擇了。
於是很多人動手了。裝環境、下載模型、跑起來——然後發現新的問題:
模型能力到位了,但「開始跑」跟「實惠好用」之間,差距比你想的還要大。
上面那些問題,歸根結底是同一件事:你拿到了一個夠強的模型,但不知道怎麼讓它在你的硬體上跑出該有的水準。
這堂課專注解決這件事——讓你手上已有的模型,跑得更快、吃得更少。
怎麼做?先搞清楚慢在哪裡。課程從推理流程拆起:
預填充和解碼階段各在忙什麼、
KV Cache 為什麼默默吃光你的記憶體、
GPU 搬運參數的方式怎麼影響推理速度。
這些底層細節,不搞懂它們,所有最佳化都是在瞎調。
搞懂瓶頸之後,從兩個方向動手。
演算法層,用量化壓縮讓模型變小但盡量不掉精度;
系統層,用 FlashAttention、PagedAttention 這些技術讓推理實際跑更快。
最後用 vLLM 把最佳化過的模型部署上線——不只單機跑起來就好,還要從 Docker 到多節點分散式叢集都實際走過。
先懂為什麼慢,再學怎麼壓、怎麼加速,最後部署上線——
一條有邏輯的路徑,讓效能發揮到極限。
| 模組 | 你會學到什麼 |
|---|---|
| 推理基礎與瓶頸分析 | 預填充與解碼階段、KV Cache 機制與最佳化必要性、模型記憶體佔用估算、GPU 運算原理與推理機制的關係 |
| 效能指標與評測 | 首詞生成時間(TTFT)、每詞生成時間(TPOT)、系統吞吐量(TPS)、業務指標(SLO)、評測工具與流程 |
| 模型壓縮 | 量化 / 剪枝 / 蒸餾三大策略、AWQ 與 GPTQ 原理與實驗比較、量化工具實作 |
| 執行時加速方案 | MQA / GQA 機制、FlashAttention 切塊與算子融合、PagedAttention 記憶體管理、持續批次處理、推理框架選型 |
| vLLM 推理部署實戰 | 顯示卡驅動與環境配置、Docker 單機部署、Head/Worker 節點設定、分散式推理叢集建置與測試 |
| 高級量化實戰 | TensorRT 與 LLMCompressor 兩套工具、GPTQ / AWQ / NVFP4 量化實作、EvalScope 評測比較、四種量化結果實測分析 |
| 特色 | 說明 |
|---|---|
| 先診斷再動手 | 從推理階段、KV Cache、GPU 搬運機制拆解瓶頸,不是直接丟工具給你,而是讓你知道問題出在哪一層 |
| 量化不是無腦壓縮 | AWQ 和 GPTQ 的原理都講清楚,讓你理解量化時精度和效能之間的取捨,找到適合你場景的折衷點 |
| 演算法層 + 系統層雙管齊下 | 量化壓縮解決模型太大的問題,FlashAttention 和 PagedAttention 解決跑太慢的問題,兩邊都教 |
| 部署不只是「裝起來」 | vLLM 從單機 Docker 到多節點分散式叢集,走完整個上線流程。搭配分頁注意力等最佳化手段,可降低 30% 以上算力成本 |
| 實測比較,用數據選方案 | 兩套量化工具、四種量化格式,用 EvalScope 跑完比較結果,不再靠感覺決定該用哪種 |
| 來自生產環境的踩坑經驗 | GPTQ 量化後精度掉了怎麼補償、vLLM 多機協作遇到網路瓶頸怎麼解——這些不是文件裡查得到的,是老師實戰累積的避坑指南 |
崔皓 AI 架構師/大模型技術講師 |
技術背景與專長
如果您購買的是募資課程,請在課程的【簡介】中查看開課時間,募資課程將於開課時間所述日期開放同學上課。
若您購買的是一般課程(開放上課課程),則在購買完成後可以立即開始觀看。
所有線上課程皆不受時間限制,享無限次永久觀看!
| 收集中