從理論到實作,一次掌握強化學習核心模型與10種主流演算法!
了解強化學習應用領域及未來趨勢:機器人、機器視覺、NLP、連續決策....
學習強化學習重要觀念:估算行動價值、馬可夫決策過程、評價函式、貝爾曼方程....等
強化學習重要演算法:蒙地卡羅方法、時間差分學習法
深度強化學習核心演算法:DQN、A2C、A3C.....等
搞懂各種強化學習演算法的垂直關係與水平比較,並能夠根據目標問題選擇模型
按一下 进入设定
早鳥優惠價 : $3990 (名額有限,要搶要快!)
越早預購越划算,價格將依照 課程製作完成度、購買人數、優惠名額...等條件,進行價格調整, 以實際公告與當下購買之金額為主。
# 從原理剖析到演算法精髓,帶你構建完整的強化學習知識體系
想要完整入門強化學習,卻總是找不到合適的教材嗎?
別擔心,第一堂專為強化學習而生的中文線上課程來了!
在這堂課中,你將學會強化學習核心觀念與邏輯、10種強化學習經典演算法與各自適用情形、並利用深度學習改寫強化學習演算法,最後利用TensorFlow結合Gym實踐「過山車」、「立桿測驗」、「貪食蛇」三大實作!
# 透過OpenAI提供的Python庫「Gym」,實踐強化學習理論
遊戲規則:透過操縱底下的小車左右移動,使它上面不斷變長的木棒能夠保持平衡。
規則:向左/向右推動小車,小車若在時間之內若到達山頂,則遊戲勝利。
規則:透過操作一路拾起觸碰到的食物,並避免觸碰到自身或者其他障礙物。
# 現今最熱門的機器學習技術!讓電腦用和人類一樣的方式學習
強化學習(英語:Reinforcement learning,簡稱RL):是機器學習中的一個領域,強調電腦如何在沒有標籤資料的情況下,透過不斷的嘗試、從錯誤中學習調整自身策略、最終找到達成目標的方法的學習過程。由於近些年來的技術突破,和深度學習 (Deep Learning) 的整合,使得強化學習有了進一步的運用!
⭐️ 強化學習中的 5 個核心部分:
智能體(Agent)、狀態(State)、獎賞(Reward)、動作(Action)和環境(Environment)
以考試為例,Agent會做出一個 Action(認真讀書或打電動),這個 Action 會改變整個環境,讓環境進入下一個 State(段考結束),並讓 Agent 獲得相對應的 Reward(段考成績),根據得到的 Reward,Agent會學習並影響下一次的決策,透過不斷的與這個環境互動,不斷的得到各種 Reward,Agent即能慢慢成長並學習如何在這環境中生存了。
# DeepMind的首席研究員David Silver曾說:「人工智慧=強化學習+深度學習。」
# 從遊戲、醫療、博弈到各種領域,未來「通用型」AI不可或缺的發展技術
# 從基本概念到現今主流演算法,階段式規劃菜單讓你逐步精熟強化學習
Part1.| 強化學習核心概念:
馬可夫決策過程 (Markov decision process):
透過MDPs來定義問題的內容,可以被想成一個智能體要解決問題的範疇。
透過學習MDPs,我們將能把待解決的情況規劃成強化學習問題。
價值函數(Value Functions):
可以把價值函數想像成對一個動作的「效益」的估計值,透過價值函數的運作,
智能體可以知道在什麼狀態做出動作會獲得獎勵,進而朝向有獎勵的行為運作。
貝爾曼方程 (Bellman Equations):
為了讓智能體能夠持續朝向獎勵高的方向運作,過程中就必須要求最好的價值函數,
透過貝爾曼方程計算每個狀態的價值函數,就能協助智能體找到最佳解決問題策略。
Part2.|強化學習核心演算法:
動態規劃法(Dynamic Programming):
假設在環境模型完全已知的狀況下,可透過動態規劃法求解MDP模型。
動態規劃有兩個重點觀念:策略評估 與 策略迭代。
使用策略迭代搜索最優策略、通過策略評估更新價值函數,就能找到最佳價值函數!
蒙地卡羅方法(Monte Carlo Methods):
在解決實際問題中,我們通常不太容易獲得環境的準確模型
而蒙地卡羅方法,擅長從隨機採樣的過程進行未知參數的估計
透過不斷的迭代獲得的狀態與獎勵,讓強化學習達到最好的結果。
時間差分學習法(Temporal-Difference Learning):
時間差分學習法結合了動態規劃法以及蒙特卡羅方法兩者的優點,
不僅可以單步更新,而且可以根據經驗進行學習,讓強化學習的過程效率增加。
Part3.|深度強化學習主流演算法:
Deep Q-Learning:
深度強化學習(Deep Reinforcement Learning)是將深度學習與增強學習結合起來,
可以透過類神經網路的特性,盡可能讓智能體在運算時逼近最好的策略與價值函數。
衍生的演算法有:DQN、DDQN、Dueling DQN、DRQN
Advantage Actor Critic (A2C):
讓強化學習中的演員(Actor)可以透過評論家(Critic)的打分數,持續進行調整參數
採用了策略梯度的做法,於是能在連續動作或者高維動作空間中選取合適的動作
Asynchronous Advantage Actor Critic (A3C):
A3C是A2C的進化版本,
由於直接更新策略的方法,其疊代速度都是非常慢的
為了充分利用計算資源,因此A3C透過異步訓練提升速度。
# AutoML、機器對話、物體辨識...... 學會用 AI 打造符合自己目標需求的智能機器人!
Q:我什麼都不會也可以學這堂課嗎?
這堂課需有Python基礎,較不適合完全零基礎的新手直接學習,但您可以透過HiSKIO上的《Python駭課》課程來補足課程所需核心!
Q:強化學習 和 深度學習我該學哪一個呢?
答案是都需要!
現今的主流強化學習應用皆以深度強化學習延伸為主,在深度神經網路的幫助下可以大大減小蒙地卡羅樹的規模。而強化學習也可以用來協助改寫深度學習演算法,在本次課程的後半段也會教你深度強化學習的核心概念與算法!
Q:學會強化學習在工作上有什麼樣的優勢嗎?
強化學習由於核心訓練方式具有通用性,因此強化學習的方法除了能夠延伸到許多領域,如:自駕車、推薦系統、廣告與營銷、博弈、醫療、訊息、視覺、機器人......之外,也將會是未來「通用型」人工智慧的重要發展因素!像是運用了強化學習的AlphaZero就一次攻克了圍棋、西洋棋、將棋 三種規則完全不同的棋類。
Q:為何不直接使用主流的模型教學、而是從基礎教起呢?
強化學習演算法的演進,都是基於前面的模型概念而延伸的!若只一昧追求效率較高的演算法而沒有從基礎觀念打起,便會無法針對問題需求去做調整,只能等別人分享改良過後的程式碼!
Jerry Wu 老師 — 現任Google機器學習開發專家、亞太智能機器創辦人兼技術長
國立臺灣科技大學資訊管理所博士候選人。專注於機器智能(Machine Intelligence)的研發與整合,包含機器視覺(CV)與自然語言理解(NLU)。曾任國立台灣科技大學講師、外商數據科學顧問、汽車業資深數據科學顧問、DSP智庫驅動(股)共同創辦人兼技術長,歷經許多產、官、學、研機器智能專案。
如果您購買的是募資課程,請在課程的【簡介】中查看開課時間,募資課程將於開課時間所述日期開放同學上課。
若您購買的是一般課程(開放上課課程),則在購買完成後可以立即開始觀看。
所有線上課程皆不受時間限制,享無限次永久觀看!
請問,當每章節實作時,都有附程式碼嗎?