AI 專家 Jerry Wu 組合|機器學習 + TensorFlow 2 + 機器視覺 + 強化學習

Description

Click for settings

00:00
00:00
00:00

預購優惠名額

早鳥優惠價 :  $3990 (名額有限,要搶要快!)

越早預購越划算,價格將依照 課程製作完成度、購買人數、優惠名額...等條件,進行價格調整, 以實際公告與當下購買之金額為主。


強化學習完全入門指南,搞懂現今最有潛力的機器學習方式!

# 從原理剖析到演算法精髓,帶你構建完整的強化學習知識體系

  • 每種演算法都包含完整程式碼實作示範,讓你能夠實際體驗強化學習的訓練過程。
  • 漸進式課程菜單規劃:從基本觀念、核心演算法,到現今應用主流的深度強化學習。
  • 以Python與TensorFlow結合OpenAI實作三個小遊戲,真正體驗如何用AI解決問題。


想要完整入門強化學習,卻總是找不到合適的教材嗎?


別擔心,第一堂專為強化學習而生的中文線上課程來了!


在這堂課中,你將學會強化學習核心觀念與邏輯、10種強化學習經典演算法與各自適用情形、並利用深度學習改寫強化學習演算法,最後利用TensorFlow結合Gym實踐「過山車」、「立桿測驗」、「貪食蛇」三大實作!


課程實作搶先看,用強化學習讓你的電腦學會玩遊戲!

# 透過OpenAI提供的Python庫「Gym」,實踐強化學習理論


1. 平衡桿 (Cartpole)

遊戲規則:透過操縱底下的小車左右移動,使它上面不斷變長的木棒能夠保持平衡。



2. 過山車 (Mountain Car)

規則:向左/向右推動小車,小車若在時間之內若到達山頂,則遊戲勝利。


3. 貪食蛇

規則:透過操作一路拾起觸碰到的食物,並避免觸碰到自身或者其他障礙物。


為什麼 AI 能學會玩遊戲呢?帶你快速認識強化學習!

 # 現今最熱門的機器學習技術!讓電腦用和人類一樣的方式學習


強化學習(英語:Reinforcement learning,簡稱RL):是機器學習中的一個領域,強調電腦如何在沒有標籤資料的情況下,透過不斷的嘗試、從錯誤中學習調整自身策略、最終找到達成目標的方法的學習過程。由於近些年來的技術突破,和深度學習 (Deep Learning) 的整合,使得強化學習有了進一步的運用!



⭐️ 強化學習中的 5 個核心部分:
智能體(Agent)、狀態(State)、獎賞(Reward)、動作(Action)和環境(Environment)

以考試為例,Agent會做出一個 Action(認真讀書或打電動),這個 Action 會改變整個環境,讓環境進入下一個 State(段考結束),並讓 Agent 獲得相對應的 Reward(段考成績),根據得到的 RewardAgent會學習並影響下一次的決策,透過不斷的與這個環境互動,不斷的得到各種 RewardAgent即能慢慢成長並學習如何在這環境中生存了。



強化學習三大特色解析,打造「通用型」人工智慧的必經途徑之一!

 # DeepMind的首席研究員David Silver曾說:「人工智慧=強化學習+深度學習。」



 
# 從遊戲、醫療、博弈到各種領域,未來「通用型」AI不可或缺的發展技術



課程內容與關鍵名詞介紹,一窺強化學習重點!

# 從基本概念到現今主流演算法,階段式規劃菜單讓你逐步精熟強化學習


Part1.| 強化學習核心概念:


馬可夫決策過程 (Markov decision process):

透過MDPs來定義問題的內容,可以被想成一個智能體要解決問題的範疇。
透過學習MDPs,我們將能把待解決的情況規劃成強化學習問題。

價值函數(Value Functions):

可以把價值函數想像成對一個動作的「效益」的估計值,透過價值函數的運作,
智能體可以知道在什麼狀態做出動作會獲得獎勵,進而朝向有獎勵的行為運作。

貝爾曼方程 (Bellman Equations):

為了讓智能體能夠持續朝向獎勵高的方向運作,過程中就必須要求最好的價值函數,
透過貝爾曼方程計算每個狀態的價值函數,就能協助智能體找到最佳解決問題策略


Part2.|強化學習核心演算法:


動態規劃法(Dynamic Programming):

假設在環境模型完全已知的狀況下,可透過動態規劃法求解MDP模型。
動態規劃有兩個重點觀念:策略評估 與 策略迭代。
使用策略迭代搜索最優策略、通過策略評估更新價值函數,就能找到最佳價值函數!

蒙地卡羅方法(Monte Carlo Methods):

在解決實際問題中,我們通常不太容易獲得環境的準確模型
而蒙地卡羅方法,擅長從隨機採樣的過程進行未知參數的估計
透過不斷的迭代獲得的狀態與獎勵,讓強化學習達到最好的結果。

時間差分學習法(Temporal-Difference Learning):

時間差分學習法結合了動態規劃法以及蒙特卡羅方法兩者的優點,
不僅可以單步更新,而且可以根據經驗進行學習,讓強化學習的過程效率增加。


Part3.|深度強化學習主流演算法:


Deep Q-Learning:

深度強化學習(Deep Reinforcement Learning)是將深度學習與增強學習結合起來,
可以透過類神經網路的特性,盡可能讓智能體在運算時逼近最好的策略與價值函數。

衍生的演算法有:DQN、DDQN、Dueling DQN、DRQN

Advantage Actor Critic (A2C):

讓強化學習中的演員(Actor)可以透過評論家(Critic)的打分數,持續進行調整參數
採用了策略梯度的做法,於是能在連續動作或者高維動作空間中選取合適的動作

Asynchronous Advantage Actor Critic (A3C):

A3C是A2C的進化版本,
由於直接更新策略的方法,其疊代速度都是非常慢的
為了充分利用計算資源,因此A3C透過異步訓練提升速度。


系列式課程規劃,確保學習地圖不中斷!

# AutoML、機器對話、物體辨識...... 學會用 AI 打造符合自己目標需求的智能機器人!




快問快答

Q:我什麼都不會也可以學這堂課嗎?


這堂課需有Python基礎,較不適合完全零基礎的新手直接學習,但您可以透過HiSKIO上的《Python駭課》課程來補足課程所需核心!


Q:強化學習 和 深度學習我該學哪一個呢?


答案是都需要!


現今的主流強化學習應用皆以深度強化學習延伸為主,在深度神經網路的幫助下可以大大減小蒙地卡羅樹的規模。而強化學習也可以用來協助改寫深度學習演算法,在本次課程的後半段也會教你深度強化學習的核心概念與算法!


Q:學會強化學習在工作上有什麼樣的優勢嗎?


強化學習由於核心訓練方式具有通用性,因此強化學習的方法除了能夠延伸到許多領域,如:自駕車、推薦系​​統、廣告與營銷、博弈、醫療、訊息、視覺、機器人......之外,也將會是未來「通用型」人工智慧的重要發展因素!像是運用了強化學習的AlphaZero就一次攻克了圍棋、西洋棋、將棋 三種規則完全不同的棋類。


Q:為何不直接使用主流的模型教學、而是從基礎教起呢?


強化學習演算法的演進,都是基於前面的模型概念而延伸的!若只一昧追求效率較高的演算法而沒有從基礎觀念打起,便會無法針對問題需求去做調整,只能等別人分享改良過後的程式碼!


講師簡介



Jerry Wu 老師 — 現任Google機器學習開發專家、亞太智能機器創辦人兼技術長


國立臺灣科技大學資訊管理所博士候選人。專注於機器智能(Machine Intelligence)的研發與整合,包含機器視覺(CV)與自然語言理解(NLU)。曾任國立台灣科技大學講師、外商數據科學顧問、汽車業資深數據科學顧問、DSP智庫驅動(股)共同創辦人兼技術長,歷經許多產、官、學、研機器智能專案。


Other description