強化學習完全入門指南

從理論到實作，一次掌握強化學習核心模型與10種主流演算法！

320

4.6

了解強化學習應用領域及未來趨勢：機器人、機器視覺、NLP、連續決策....
學習強化學習重要觀念：估算行動價值、馬可夫決策過程、評價函式、貝爾曼方程....等
強化學習重要演算法：蒙地卡羅方法、時間差分學習法
深度強化學習核心演算法：DQN、A2C、A3C.....等
搞懂各種強化學習演算法的垂直關係與水平比較，並能夠根據目標問題選擇模型

US$93.83

按一下进入设定

00:00

預購優惠名額

早鳥優惠價 : $3990 （名額有限，要搶要快！）

越早預購越划算，價格將依照課程製作完成度、購買人數、優惠名額...等條件，進行價格調整，以實際公告與當下購買之金額為主。

強化學習完全入門指南，搞懂現今最有潛力的機器學習方式！

# 從原理剖析到演算法精髓，帶你構建完整的強化學習知識體系

每種演算法都包含完整程式碼實作示範，讓你能夠實際體驗強化學習的訓練過程。
漸進式課程菜單規劃：從基本觀念、核心演算法，到現今應用主流的深度強化學習。
以Python與TensorFlow結合OpenAI實作三個小遊戲，真正體驗如何用AI解決問題。

想要完整入門強化學習，卻總是找不到合適的教材嗎？

別擔心，第一堂專為強化學習而生的中文線上課程來了！

在這堂課中，你將學會強化學習核心觀念與邏輯、10種強化學習經典演算法與各自適用情形、並利用深度學習改寫強化學習演算法，最後利用TensorFlow結合Gym實踐「過山車」、「立桿測驗」、「貪食蛇」三大實作！

課程實作搶先看，用強化學習讓你的電腦學會玩遊戲！

# 透過OpenAI提供的Python庫「Gym」，實踐強化學習理論

1. 平衡桿 (Cartpole)

遊戲規則：透過操縱底下的小車左右移動，使它上面不斷變長的木棒能夠保持平衡。

2. 過山車 (Mountain Car)

規則：向左/向右推動小車，小車若在時間之內若到達山頂，則遊戲勝利。

3. 貪食蛇

規則：透過操作一路拾起觸碰到的食物，並避免觸碰到自身或者其他障礙物。

為什麼 AI 能學會玩遊戲呢？帶你快速認識強化學習！

# 現今最熱門的機器學習技術！讓電腦用和人類一樣的方式學習

強化學習（英語：Reinforcement learning，簡稱RL）：是機器學習中的一個領域，強調電腦如何在沒有標籤資料的情況下，透過不斷的嘗試、從錯誤中學習調整自身策略、最終找到達成目標的方法的學習過程。由於近些年來的技術突破，和深度學習 (Deep Learning) 的整合，使得強化學習有了進一步的運用！

⭐️ 強化學習中的 5 個核心部分：
智能體(Agent)、狀態(State)、獎賞(Reward)、動作(Action)和環境(Environment)

以考試為例，Agent會做出一個 Action（認真讀書或打電動），這個 Action 會改變整個環境，讓環境進入下一個 State（段考結束），並讓 Agent 獲得相對應的 Reward（段考成績），根據得到的 Reward，Agent會學習並影響下一次的決策，透過不斷的與這個環境互動，不斷的得到各種 Reward，Agent即能慢慢成長並學習如何在這環境中生存了。

強化學習三大特色解析，打造「通用型」人工智慧的必經途徑之一！

# DeepMind的首席研究員David Silver曾說：「人工智慧=強化學習+深度學習。」

# 從遊戲、醫療、博弈到各種領域，未來「通用型」AI不可或缺的發展技術

課程內容與關鍵名詞介紹，一窺強化學習重點！

# 從基本概念到現今主流演算法，階段式規劃菜單讓你逐步精熟強化學習

Part1.｜強化學習核心概念：

馬可夫決策過程 (Markov decision process)：

透過MDPs來定義問題的內容，可以被想成一個智能體要解決問題的範疇。
透過學習MDPs，我們將能把待解決的情況規劃成強化學習問題。

價值函數(Value Functions)：

可以把價值函數想像成對一個動作的「效益」的估計值，透過價值函數的運作，
智能體可以知道在什麼狀態做出動作會獲得獎勵，進而朝向有獎勵的行為運作。

貝爾曼方程 (Bellman Equations)：

為了讓智能體能夠持續朝向獎勵高的方向運作，過程中就必須要求最好的價值函數，
透過貝爾曼方程計算每個狀態的價值函數，就能協助智能體找到最佳解決問題策略。

Part2.｜強化學習核心演算法：

動態規劃法(Dynamic Programming)：

假設在環境模型完全已知的狀況下，可透過動態規劃法求解MDP模型。
動態規劃有兩個重點觀念：策略評估 與 策略迭代。
使用策略迭代搜索最優策略、通過策略評估更新價值函數，就能找到最佳價值函數！

蒙地卡羅方法(Monte Carlo Methods)：

在解決實際問題中，我們通常不太容易獲得環境的準確模型
而蒙地卡羅方法，擅長從隨機採樣的過程進行未知參數的估計
透過不斷的迭代獲得的狀態與獎勵，讓強化學習達到最好的結果。

時間差分學習法(Temporal-Difference Learning)：

時間差分學習法結合了動態規劃法以及蒙特卡羅方法兩者的優點，
不僅可以單步更新，而且可以根據經驗進行學習，讓強化學習的過程效率增加。

Part3.｜深度強化學習主流演算法：

Deep Q-Learning：

深度強化學習(Deep Reinforcement Learning)是將深度學習與增強學習結合起來，
可以透過類神經網路的特性，盡可能讓智能體在運算時逼近最好的策略與價值函數。

衍生的演算法有：DQN、DDQN、Dueling DQN、DRQN

Advantage Actor Critic (A2C)：

讓強化學習中的演員(Actor)可以透過評論家(Critic)的打分數，持續進行調整參數
採用了策略梯度的做法，於是能在連續動作或者高維動作空間中選取合適的動作

Asynchronous Advantage Actor Critic (A3C)：

A3C是A2C的進化版本，
由於直接更新策略的方法，其疊代速度都是非常慢的
為了充分利用計算資源，因此A3C透過異步訓練提升速度。

系列式課程規劃，確保學習地圖不中斷！

# AutoML、機器對話、物體辨識...... 學會用 AI 打造符合自己目標需求的智能機器人！

快問快答

Q：我什麼都不會也可以學這堂課嗎？

這堂課需有Python基礎，較不適合完全零基礎的新手直接學習，但您可以透過HiSKIO上的《Python駭課》課程來補足課程所需核心！

Q：強化學習和深度學習我該學哪一個呢？

答案是都需要！

現今的主流強化學習應用皆以深度強化學習延伸為主，在深度神經網路的幫助下可以大大減小蒙地卡羅樹的規模。而強化學習也可以用來協助改寫深度學習演算法，在本次課程的後半段也會教你深度強化學習的核心概念與算法！

Q：學會強化學習在工作上有什麼樣的優勢嗎？

強化學習由於核心訓練方式具有通用性，因此強化學習的方法除了能夠延伸到許多領域，如：自駕車、推薦系統、廣告與營銷、博弈、醫療、訊息、視覺、機器人......之外，也將會是未來「通用型」人工智慧的重要發展因素！像是運用了強化學習的AlphaZero就一次攻克了圍棋、西洋棋、將棋三種規則完全不同的棋類。

Q：為何不直接使用主流的模型教學、而是從基礎教起呢？

強化學習演算法的演進，都是基於前面的模型概念而延伸的！若只一昧追求效率較高的演算法而沒有從基礎觀念打起，便會無法針對問題需求去做調整，只能等別人分享改良過後的程式碼！

講師簡介

Jerry Wu 老師 — 現任Google機器學習開發專家、亞太智能機器創辦人兼技術長

國立臺灣科技大學資訊管理所博士候選人。專注於機器智能(Machine Intelligence)的研發與整合，包含機器視覺(CV)與自然語言理解(NLU)。曾任國立台灣科技大學講師、外商數據科學顧問、汽車業資深數據科學顧問、DSP智庫驅動(股)共同創辦人兼技術長，歷經許多產、官、學、研機器智能專案。

章节目录

1-1
何謂強化學習？
1-2
強化學習的應用？

试阅影片

Kelly Fung

精选

評價

導師講解十分具體清晰，內容充實且鋪排得相當有條理，當中包含了每一種算法的概念原理，不同算法的比較，以致怎樣以python 具體實現出來。是一個購買的課程。

TsuTW

精选

評價

從基礎到進階，由淺入深的讓我學習到未來最具應用性的AI-強化學習的核心模型與演算法，也透過讓AI怎麼玩遊戲瞭解強化學習是如何運作的，很期待AI未來的發展

kelvinlai

精选

評價

老師仔細分析每段公式與運用的不同,學習用簡易的方式講述複雜的公式,再搭配程式的實作,內容簡易好吸收.

Frank

評價

教材提供完整，先講理論再講實作，有利剛入門的同學學習。

廖健傑

評價

華人第一RL課程, UXXXy上也沒有RL中文課程

許晉龍

great

a great course for IR

用户评价

4.6

14 则评价

购买前问答

pufoo

請問,當每章節實作時,都有附程式碼嗎?

課程助教

pufoo 您好，各章節的實作階段，都附有python程式碼。

AI 专家Jerry Wu 组合｜机器学习应用+ 强化学习入门
+ 其他 0 堂课
US$156.84
~~US$178.24~~
前往优惠
AI 专家Jerry Wu 组合｜机器学习+ TensorFlow 2 + 机器视觉+ 强化学习
+ 其他 2 堂课
US$276.77
~~US$347.06~~
前往优惠

语言

币别

语言

币别

強化學習完全入門指南

預購優惠名額

強化學習完全入門指南，搞懂現今最有潛力的機器學習方式！

課程實作搶先看，用強化學習讓你的電腦學會玩遊戲！

1. 平衡桿 (Cartpole)

2. 過山車 (Mountain Car)

3. 貪食蛇

為什麼 AI 能學會玩遊戲呢？帶你快速認識強化學習！

強化學習三大特色解析，打造「通用型」人工智慧的必經途徑之一！

課程內容與關鍵名詞介紹，一窺強化學習重點！

系列式課程規劃，確保學習地圖不中斷！

快問快答

講師簡介

章节目录

何謂強化學習？

了解行動價值(Action Values)

馬可夫決策過程概念解析

以Python實作貝爾曼方程

试阅影片

常见问答

猜你喜欢

Claude Code 深度應用：打造 AI 時代百倍產能的工程師工作流

張維元｜RAG 精準搜尋實戰：打造能自己變準的 AI 搜尋系統

AI 自動化：n8n + AI Agent + MCP 實戰全攻略

2026 Python 全攻略｜從基礎語法到靈活應用

AI 機器學習全攻略：從理論到應用

評價

評價

評價

評價

評價

great

用户评价

购买前问答

AI 专家Jerry Wu 组合｜机器学习应用+ 强化学习入门

AI 专家Jerry Wu 组合｜机器学习+ TensorFlow 2 + 机器视觉+ 强化学习

預購優惠名額

強化學習完全入門指南，搞懂現今最有潛力的機器學習方式！

課程實作搶先看，用強化學習讓你的電腦學會玩遊戲！

1. 平衡桿 (Cartpole)

2. 過山車 (Mountain Car)

3. 貪食蛇

為什麼 AI 能學會玩遊戲呢？帶你快速認識強化學習！

強化學習三大特色解析，打造「通用型」人工智慧的必經途徑之一！

課程內容與關鍵名詞介紹，一窺強化學習重點！

系列式課程規劃，確保學習地圖不中斷！

快問快答

講師簡介

章节目录

1強化學習(Reinforcement Learning)與應用共 2 单元

2強化學習的決策過程共 4 单元

3馬可夫決策過程 (Markov decision process)共 3 单元

4貝爾曼方程與價值函數共 3 单元

5動態規劃法(Dynamic Programming)共 5 单元

6蒙地卡羅方法(Monte Carlo Methods)共 4 单元

7時間差分學習法(Temporal-Difference Learning)共 4 单元

8強化學習實作：以Python實作Gym套件共 2 单元

9DQN前置：策略梯度(Policy Gradient)介紹共 5 单元

10Deep Q-Learning概念 (DQN、DDQN、Dueling DQN、DRQN)共 4 单元

11TensorFlow2.0基本教學共 3 单元

12強化學習實作：以TensorFlow2.0實作深度強化學習共 5 单元

13Advantage Actor Critic 方法 (A2C)共 3 单元

14Asynchronous Advantage Actor Critic (A3C)共 3 单元

15強化學習課後總結共 2 单元

何謂強化學習？

了解行動價值(Action Values)

馬可夫決策過程 概念解析

以Python實作貝爾曼方程

试阅影片

常见问答

Q 課程購買後，何時可以觀看呢？

Q 課程有觀看時間的限制嗎？

Q 我要如何確認課程適合我？

Q 我沒有套用到抵用券，可以退費重新購買嗎？

Q 購課有發票嗎？可以開統編發票嗎？

Q 為什麼我已經購買課程，卻找不到它？

猜你喜欢

Claude Code 深度應用：打造 AI 時代百倍產能的工程師工作流

張維元｜RAG 精準搜尋實戰：打造能自己變準的 AI 搜尋系統

AI 自動化：n8n + AI Agent + MCP 實戰全攻略

2026 Python 全攻略｜從基礎語法到靈活應用

AI 機器學習全攻略：從理論到應用

評價

評價

評價

評價

評價

great

用户评价

购买前问答

销售方案

馬可夫決策過程概念解析