LLM 推理優化實戰:榨出本地模型翻倍效能

    從模型量化壓縮、注意力機制加速到 vLLM 部署上線,學會診斷推理瓶頸並動手最佳化,讓你的本地模型跑得更快、吃得更少。

    • 看懂 LLM 推理流程的效能瓶頸,知道「慢在哪裡」才能對症下藥

    • 用 AWQ / GPTQ 量化壓縮模型,在精度和速度之間找到最佳平衡

    • 掌握 FlashAttention、PagedAttention 等系統層加速技術的原理與應用

    • 用 vLLM 完成從單機 Docker 到多節點分散式叢集的推理部署

    • 實測比較多種量化方案,用數據選擇最適合你的配置

    Not Set Yet

    Traditional Chinese

    Click for settings

    00:00
    00:00
    00:00

    本地跑模型,不再是雞肋選項

    一年前如果有人跟你說「自己在本地跑 LLM」,你大概會想:何必呢?
    模型能力跟商用 API 差一截,環境架設一堆坑,花的時間和硬體成本算下來,還不如直接打 API 省事。

    然而,近期情況已經改變,像 Gemma 4 這類開源模型,技術底子直接來自商用模型的同源研究,能力已經不是「堪用」而是「好用」。
    另一邊,Anthropic 開始限制訂閱方案被第三方開發工具調用——靠 API 吃到飽的算盤,越來越不確定能打多久。

    算一算,自己跑模型反而變成更經濟、更可控的選擇了。

    於是很多人動手了。裝環境、下載模型、跑起來——然後發現新的問題:

    • 模型太大,GPU 記憶體塞不下,連載入都是問題
    • 推理慢到沒辦法拿來用,只能當玩具跑個 demo 看看
    • 聽說量化可以壓縮,但 AWQ、GPTQ、FP4 到底選哪個?壓完模型會不會變笨?
    • 單機勉強能跑,但要部署成服務讓團隊用,完全不知道從哪開始
    • FlashAttention、PagedAttention 這些名詞到處看到,但不確定它們到底在加速什麼

    模型能力到位了,但「開始跑」跟「實惠好用」之間,差距比你想的還要大。

     

    這堂課在做的事:把你的本地模型效能榨到極限

    上面那些問題,歸根結底是同一件事:你拿到了一個夠強的模型,但不知道怎麼讓它在你的硬體上跑出該有的水準。

    這堂課專注解決這件事——讓你手上已有的模型,跑得更快、吃得更少。

    怎麼做?先搞清楚慢在哪裡。課程從推理流程拆起:
    預填充和解碼階段各在忙什麼、
    KV Cache 為什麼默默吃光你的記憶體、
    GPU 搬運參數的方式怎麼影響推理速度。

    這些底層細節,不搞懂它們,所有最佳化都是在瞎調。

    搞懂瓶頸之後,從兩個方向動手。

    演算法層,用量化壓縮讓模型變小但盡量不掉精度;
    系統層,用 FlashAttention、PagedAttention 這些技術讓推理實際跑更快。
    最後用 vLLM 把最佳化過的模型部署上線——不只單機跑起來就好,還要從 Docker 到多節點分散式叢集都實際走過。

    先懂為什麼慢,再學怎麼壓、怎麼加速,最後部署上線——
    一條有邏輯的路徑,讓效能發揮到極限。

     

    課程內容

    模組你會學到什麼
    推理基礎與瓶頸分析預填充與解碼階段、KV Cache 機制與最佳化必要性、模型記憶體佔用估算、GPU 運算原理與推理機制的關係
    效能指標與評測首詞生成時間(TTFT)、每詞生成時間(TPOT)、系統吞吐量(TPS)、業務指標(SLO)、評測工具與流程
    模型壓縮量化 / 剪枝 / 蒸餾三大策略、AWQ 與 GPTQ 原理與實驗比較、量化工具實作
    執行時加速方案MQA / GQA 機制、FlashAttention 切塊與算子融合、PagedAttention 記憶體管理、持續批次處理、推理框架選型
    vLLM 推理部署實戰顯示卡驅動與環境配置、Docker 單機部署、Head/Worker 節點設定、分散式推理叢集建置與測試
    高級量化實戰TensorRT 與 LLMCompressor 兩套工具、GPTQ / AWQ / NVFP4 量化實作、EvalScope 評測比較、四種量化結果實測分析

     

    課程特色

    特色說明
    先診斷再動手從推理階段、KV Cache、GPU 搬運機制拆解瓶頸,不是直接丟工具給你,而是讓你知道問題出在哪一層
    量化不是無腦壓縮AWQ 和 GPTQ 的原理都講清楚,讓你理解量化時精度和效能之間的取捨,找到適合你場景的折衷點
    演算法層 + 系統層雙管齊下量化壓縮解決模型太大的問題,FlashAttention 和 PagedAttention 解決跑太慢的問題,兩邊都教
    部署不只是「裝起來」vLLM 從單機 Docker 到多節點分散式叢集,走完整個上線流程。搭配分頁注意力等最佳化手段,可降低 30% 以上算力成本
    實測比較,用數據選方案兩套量化工具、四種量化格式,用 EvalScope 跑完比較結果,不再靠感覺決定該用哪種
    來自生產環境的踩坑經驗GPTQ 量化後精度掉了怎麼補償、vLLM 多機協作遇到網路瓶頸怎麼解——這些不是文件裡查得到的,是老師實戰累積的避坑指南

     

    這堂課適合誰

    • 決定在本地跑模型,但不想只學怎麼安裝的開發者
      裝起來只是第一步,這堂課從裝完之後開始——教你怎麼讓模型真正跑得好、用得上
    • 已經在本地跑模型,但對推理速度和資源消耗不滿意的 AI 工程師
      你需要的不是換一張更大的卡,而是把現有硬體的效能榨出來
    • 想把模型從實驗室搬到生產環境的 MLOps 工程師
      跑 notebook 能動不代表能上線,這堂課教你用 vLLM 把部署這件事做完
    • 對 LLM 推理原理有興趣的後端 / 系統工程師
      想搞懂量化、注意力加速、KV Cache 這些技術到底在做什麼,而不只是照著指令跑
    • 需要評估 LLM 推理方案的技術主管或架構師
      量化策略怎麼選、推理框架怎麼挑、硬體怎麼配,這堂課提供決策依據

     

    講師介紹

    崔皓
    AI 架構師/大模型技術講師

     

    技術背景與專長

    • 22 年以上系統架構與 AI 技術經驗
    • 曾任惠普中國系統架構師,專注於生成式 AI 與分散式架構
    • 51CTO 特聘講師,全網學員超過 20 萬人
    • 暢銷書作者
      • 《LangChain 實戰:大模型應用開發實例》
      • 《分布式架構原理與實踐》
      • 《大模型定制開發》

    Content

    • 1-1
      課程內容介紹
    • 1-2
      預填充與解碼階段
    • 1-3
      推理階段與 KV Cache 的關係
    • 1-4
      生成 KV Cache 過程推演
    • 1-5
      為何需要對 KV Cache 最佳化
    • 1-6
      如何估算模型佔用記憶體
    • 1-7
      GPU 內部運算原理與推理機制的關係
    • 1-8
      列舉 LLM 儲存介質以及如何搬運參數
    • 1-9
      最佳化思路:參數量化、執行時加速、IO 最佳化
    • 1-10
      章節總結

    Preview

    FAQ

    如果您購買的是募資課程,請在課程的【簡介】中查看開課時間,募資課程將於開課時間所述日期開放同學上課。

     

    若您購買的是一般課程(開放上課課程),則在購買完成後可以立即開始觀看。

     

    所有線上課程皆不受時間限制,享無限次永久觀看!

    Recommendations

    Reviews

    | Collecting

    Pre-Purchase Q&A

    | No Content

    Sales Plans