artificial intelligence

LLM 推理優化實戰：榨出本地模型翻倍效能

從模型量化壓縮、注意力機制加速到 vLLM 部署上線，學會診斷推理瓶頸並動手最佳化，讓你的本地模型跑得更快、吃得更少。

5.0

看懂 LLM 推理流程的效能瓶頸，知道「慢在哪裡」才能對症下藥
用 AWQ / GPTQ 量化壓縮模型，在精度和速度之間找到最佳平衡
掌握 FlashAttention、PagedAttention 等系統層加速技術的原理與應用
用 vLLM 完成從單機 Docker 到多節點分散式叢集的推理部署
實測比較多種量化方案，用數據選擇最適合你的配置

US$111.05

Traditional Chinese

Click for settings

00:00

本地跑模型，不再是雞肋選項

一年前如果有人跟你說「自己在本地跑 LLM」，你大概會想：何必呢？
模型能力跟商用 API 差一截，環境架設一堆坑，花的時間和硬體成本算下來，還不如直接打 API 省事。

然而，近期情況已經改變，像 Gemma 4 這類開源模型，技術底子直接來自商用模型的同源研究，能力已經不是「堪用」而是「好用」。
另一邊，Anthropic 開始限制訂閱方案被第三方開發工具調用——靠 API 吃到飽的算盤，越來越不確定能打多久。

算一算，自己跑模型反而變成更經濟、更可控的選擇了。

於是很多人動手了。裝環境、下載模型、跑起來——然後發現新的問題：

模型太大，GPU 記憶體塞不下，連載入都是問題
推理慢到沒辦法拿來用，只能當玩具跑個 demo 看看
聽說量化可以壓縮，但 AWQ、GPTQ、FP4 到底選哪個？壓完模型會不會變笨？
單機勉強能跑，但要部署成服務讓團隊用，完全不知道從哪開始
FlashAttention、PagedAttention 這些名詞到處看到，但不確定它們到底在加速什麼

模型能力到位了，但「開始跑」跟「實惠好用」之間，差距比你想的還要大。

這堂課在做的事：把你的本地模型效能榨到極限

上面那些問題，歸根結底是同一件事：你拿到了一個夠強的模型，但不知道怎麼讓它在你的硬體上跑出該有的水準。

這堂課專注解決這件事——讓你手上已有的模型，跑得更快、吃得更少。

怎麼做？先搞清楚慢在哪裡。課程從推理流程拆起：
預填充和解碼階段各在忙什麼、
KV Cache 為什麼默默吃光你的記憶體、
GPU 搬運參數的方式怎麼影響推理速度。

這些底層細節，不搞懂它們，所有最佳化都是在瞎調。

搞懂瓶頸之後，從兩個方向動手。

演算法層，用量化壓縮讓模型變小但盡量不掉精度；
系統層，用 FlashAttention、PagedAttention 這些技術讓推理實際跑更快。
最後用 vLLM 把最佳化過的模型部署上線——不只單機跑起來就好，還要從 Docker 到多節點分散式叢集都實際走過。

先懂為什麼慢，再學怎麼壓、怎麼加速，最後部署上線——
一條有邏輯的路徑，讓效能發揮到極限。

課程內容

模組	你會學到什麼
推理基礎與瓶頸分析	預填充與解碼階段、KV Cache 機制與最佳化必要性、模型記憶體佔用估算、GPU 運算原理與推理機制的關係
效能指標與評測	首詞生成時間（TTFT）、每詞生成時間（TPOT）、系統吞吐量（TPS）、業務指標（SLO）、評測工具與流程
模型壓縮	量化 / 剪枝 / 蒸餾三大策略、AWQ 與 GPTQ 原理與實驗比較、量化工具實作
執行時加速方案	MQA / GQA 機制、FlashAttention 切塊與算子融合、PagedAttention 記憶體管理、持續批次處理、推理框架選型
vLLM 推理部署實戰	顯示卡驅動與環境配置、Docker 單機部署、Head/Worker 節點設定、分散式推理叢集建置與測試
高級量化實戰	TensorRT 與 LLMCompressor 兩套工具、GPTQ / AWQ / NVFP4 量化實作、EvalScope 評測比較、四種量化結果實測分析

課程特色

特色	說明
先診斷再動手	從推理階段、KV Cache、GPU 搬運機制拆解瓶頸，不是直接丟工具給你，而是讓你知道問題出在哪一層
量化不是無腦壓縮	AWQ 和 GPTQ 的原理都講清楚，讓你理解量化時精度和效能之間的取捨，找到適合你場景的折衷點
演算法層 + 系統層雙管齊下	量化壓縮解決模型太大的問題，FlashAttention 和 PagedAttention 解決跑太慢的問題，兩邊都教
部署不只是「裝起來」	vLLM 從單機 Docker 到多節點分散式叢集，走完整個上線流程。搭配分頁注意力等最佳化手段，可降低 30% 以上算力成本
實測比較，用數據選方案	兩套量化工具、四種量化格式，用 EvalScope 跑完比較結果，不再靠感覺決定該用哪種
來自生產環境的踩坑經驗	GPTQ 量化後精度掉了怎麼補償、vLLM 多機協作遇到網路瓶頸怎麼解——這些不是文件裡查得到的，是老師實戰累積的避坑指南

這堂課適合誰

決定在本地跑模型，但不想只學怎麼安裝的開發者
裝起來只是第一步，這堂課從裝完之後開始——教你怎麼讓模型真正跑得好、用得上
已經在本地跑模型，但對推理速度和資源消耗不滿意的 AI 工程師
你需要的不是換一張更大的卡，而是把現有硬體的效能榨出來
想把模型從實驗室搬到生產環境的 MLOps 工程師
跑 notebook 能動不代表能上線，這堂課教你用 vLLM 把部署這件事做完
對 LLM 推理原理有興趣的後端 / 系統工程師
想搞懂量化、注意力加速、KV Cache 這些技術到底在做什麼，而不只是照著指令跑
需要評估 LLM 推理方案的技術主管或架構師
量化策略怎麼選、推理框架怎麼挑、硬體怎麼配，這堂課提供決策依據

講師介紹

崔皓
AI 架構師／大模型技術講師

技術背景與專長

22 年以上系統架構與 AI 技術經驗
曾任惠普中國系統架構師，專注於生成式 AI 與分散式架構
51CTO 特聘講師，全網學員超過 20 萬人
暢銷書作者
- 《LangChain 實戰：大模型應用開發實例》
- 《分布式架構原理與實踐》
- 《大模型定制開發》

Content

1-1
課程內容介紹
1-2
預填充與解碼階段
1-3
推理階段與 KV Cache 的關係
1-4
生成 KV Cache 過程推演
1-5
為何需要對 KV Cache 最佳化
1-6
如何估算模型佔用記憶體
1-7
GPU 內部運算原理與推理機制的關係
1-8
列舉 LLM 儲存介質以及如何搬運參數
1-9
最佳化思路：參數量化、執行時加速、IO 最佳化
1-10
章節總結

Preview

Jia Wei Lai

Featured

Reviews

5.0

1 reviews

Pre-Purchase Q&A

| No Content

Language

Currency

Language

Currency

LLM 推理優化實戰：榨出本地模型翻倍效能

本地跑模型，不再是雞肋選項

這堂課在做的事：把你的本地模型效能榨到極限

課程內容

課程特色

這堂課適合誰

講師介紹

Content

課程內容介紹

預填充與解碼階段

Preview

FAQ

Recommendations

Claude Code 深度應用：打造 AI 時代百倍產能的工程師工作流

AI 自動化：n8n + AI Agent + MCP 實戰全攻略

張維元｜RAG 精準搜尋實戰：打造能自己變準的 AI 搜尋系統

2026 Python 全攻略｜從基礎語法到靈活應用

Prometheus 智能維運：DeepSeek + Dify 自動巡檢產出異常報告

推薦

Reviews

Pre-Purchase Q&A

本地 LLM 效能提升｜硬體架構 x 推理優化

本地跑模型，不再是雞肋選項

這堂課在做的事：把你的本地模型效能榨到極限

課程內容

課程特色

這堂課適合誰

講師介紹

Content

1LLM 推理基礎10 lectures

2LLM 效能指標9 lectures

3模型壓縮11 lectures

4執行時加速方案10 lectures

5vLLM 推理實戰10 lectures

6高級量化實戰16 lectures

課程內容介紹

預填充與解碼階段

Preview

FAQ

Q 課程購買後，何時可以觀看呢？

Q 課程有觀看時間的限制嗎？

Q 我要如何確認課程適合我？

Q 我沒有套用到抵用券，可以退費重新購買嗎？

Q 購課有發票嗎？可以開統編發票嗎？

Q 為什麼我已經購買課程，卻找不到它？

Recommendations

Claude Code 深度應用：打造 AI 時代百倍產能的工程師工作流

AI 自動化：n8n + AI Agent + MCP 實戰全攻略

張維元｜RAG 精準搜尋實戰：打造能自己變準的 AI 搜尋系統

2026 Python 全攻略｜從基礎語法到靈活應用

Prometheus 智能維運：DeepSeek + Dify 自動巡檢產出異常報告

推薦

Reviews

Pre-Purchase Q&A

Sales Plans