強化學習完全入門指南

    從理論到實作,一次掌握強化學習核心模型與10種主流演算法!

    320
    4.6
    • 了解強化學習應用領域及未來趨勢:機器人、機器視覺、NLP、連續決策....

    • 學習強化學習重要觀念:估算行動價值、馬可夫決策過程、評價函式、貝爾曼方程....等

    • 強化學習重要演算法:蒙地卡羅方法、時間差分學習法

    • 深度強化學習核心演算法:DQN、A2C、A3C.....等

    • 搞懂各種強化學習演算法的垂直關係與水平比較,並能夠根據目標問題選擇模型

    US$93.83

    按一下 进入设定

    00:00
    00:00
    00:00

    預購優惠名額

    早鳥優惠價 :  $3990 (名額有限,要搶要快!)

    越早預購越划算,價格將依照 課程製作完成度、購買人數、優惠名額...等條件,進行價格調整, 以實際公告與當下購買之金額為主。


    強化學習完全入門指南,搞懂現今最有潛力的機器學習方式!

    # 從原理剖析到演算法精髓,帶你構建完整的強化學習知識體系

    • 每種演算法都包含完整程式碼實作示範,讓你能夠實際體驗強化學習的訓練過程。
    • 漸進式課程菜單規劃:從基本觀念、核心演算法,到現今應用主流的深度強化學習。
    • 以Python與TensorFlow結合OpenAI實作三個小遊戲,真正體驗如何用AI解決問題。


    想要完整入門強化學習,卻總是找不到合適的教材嗎?


    別擔心,第一堂專為強化學習而生的中文線上課程來了!


    在這堂課中,你將學會強化學習核心觀念與邏輯、10種強化學習經典演算法與各自適用情形、並利用深度學習改寫強化學習演算法,最後利用TensorFlow結合Gym實踐「過山車」、「立桿測驗」、「貪食蛇」三大實作!


    課程實作搶先看,用強化學習讓你的電腦學會玩遊戲!

    # 透過OpenAI提供的Python庫「Gym」,實踐強化學習理論


    1. 平衡桿 (Cartpole)

    遊戲規則:透過操縱底下的小車左右移動,使它上面不斷變長的木棒能夠保持平衡。



    2. 過山車 (Mountain Car)

    規則:向左/向右推動小車,小車若在時間之內若到達山頂,則遊戲勝利。


    3. 貪食蛇

    規則:透過操作一路拾起觸碰到的食物,並避免觸碰到自身或者其他障礙物。


    為什麼 AI 能學會玩遊戲呢?帶你快速認識強化學習!

     # 現今最熱門的機器學習技術!讓電腦用和人類一樣的方式學習


    強化學習(英語:Reinforcement learning,簡稱RL):是機器學習中的一個領域,強調電腦如何在沒有標籤資料的情況下,透過不斷的嘗試、從錯誤中學習調整自身策略、最終找到達成目標的方法的學習過程。由於近些年來的技術突破,和深度學習 (Deep Learning) 的整合,使得強化學習有了進一步的運用!



    ⭐️ 強化學習中的 5 個核心部分:
    智能體(Agent)、狀態(State)、獎賞(Reward)、動作(Action)和環境(Environment)

    以考試為例,Agent會做出一個 Action(認真讀書或打電動),這個 Action 會改變整個環境,讓環境進入下一個 State(段考結束),並讓 Agent 獲得相對應的 Reward(段考成績),根據得到的 RewardAgent會學習並影響下一次的決策,透過不斷的與這個環境互動,不斷的得到各種 RewardAgent即能慢慢成長並學習如何在這環境中生存了。



    強化學習三大特色解析,打造「通用型」人工智慧的必經途徑之一!

     # DeepMind的首席研究員David Silver曾說:「人工智慧=強化學習+深度學習。」



     
    # 從遊戲、醫療、博弈到各種領域,未來「通用型」AI不可或缺的發展技術



    課程內容與關鍵名詞介紹,一窺強化學習重點!

    # 從基本概念到現今主流演算法,階段式規劃菜單讓你逐步精熟強化學習


    Part1.| 強化學習核心概念:


    馬可夫決策過程 (Markov decision process):

    透過MDPs來定義問題的內容,可以被想成一個智能體要解決問題的範疇。
    透過學習MDPs,我們將能把待解決的情況規劃成強化學習問題。

    價值函數(Value Functions):

    可以把價值函數想像成對一個動作的「效益」的估計值,透過價值函數的運作,
    智能體可以知道在什麼狀態做出動作會獲得獎勵,進而朝向有獎勵的行為運作。

    貝爾曼方程 (Bellman Equations):

    為了讓智能體能夠持續朝向獎勵高的方向運作,過程中就必須要求最好的價值函數,
    透過貝爾曼方程計算每個狀態的價值函數,就能協助智能體找到最佳解決問題策略


    Part2.|強化學習核心演算法:


    動態規劃法(Dynamic Programming):

    假設在環境模型完全已知的狀況下,可透過動態規劃法求解MDP模型。
    動態規劃有兩個重點觀念:策略評估 與 策略迭代。
    使用策略迭代搜索最優策略、通過策略評估更新價值函數,就能找到最佳價值函數!

    蒙地卡羅方法(Monte Carlo Methods):

    在解決實際問題中,我們通常不太容易獲得環境的準確模型
    而蒙地卡羅方法,擅長從隨機採樣的過程進行未知參數的估計
    透過不斷的迭代獲得的狀態與獎勵,讓強化學習達到最好的結果。

    時間差分學習法(Temporal-Difference Learning):

    時間差分學習法結合了動態規劃法以及蒙特卡羅方法兩者的優點,
    不僅可以單步更新,而且可以根據經驗進行學習,讓強化學習的過程效率增加。


    Part3.|深度強化學習主流演算法:


    Deep Q-Learning:

    深度強化學習(Deep Reinforcement Learning)是將深度學習與增強學習結合起來,
    可以透過類神經網路的特性,盡可能讓智能體在運算時逼近最好的策略與價值函數。

    衍生的演算法有:DQN、DDQN、Dueling DQN、DRQN

    Advantage Actor Critic (A2C):

    讓強化學習中的演員(Actor)可以透過評論家(Critic)的打分數,持續進行調整參數
    採用了策略梯度的做法,於是能在連續動作或者高維動作空間中選取合適的動作

    Asynchronous Advantage Actor Critic (A3C):

    A3C是A2C的進化版本,
    由於直接更新策略的方法,其疊代速度都是非常慢的
    為了充分利用計算資源,因此A3C透過異步訓練提升速度。


    系列式課程規劃,確保學習地圖不中斷!

    # AutoML、機器對話、物體辨識...... 學會用 AI 打造符合自己目標需求的智能機器人!




    快問快答

    Q:我什麼都不會也可以學這堂課嗎?


    這堂課需有Python基礎,較不適合完全零基礎的新手直接學習,但您可以透過HiSKIO上的《Python駭課》課程來補足課程所需核心!


    Q:強化學習 和 深度學習我該學哪一個呢?


    答案是都需要!


    現今的主流強化學習應用皆以深度強化學習延伸為主,在深度神經網路的幫助下可以大大減小蒙地卡羅樹的規模。而強化學習也可以用來協助改寫深度學習演算法,在本次課程的後半段也會教你深度強化學習的核心概念與算法!


    Q:學會強化學習在工作上有什麼樣的優勢嗎?


    強化學習由於核心訓練方式具有通用性,因此強化學習的方法除了能夠延伸到許多領域,如:自駕車、推薦系​​統、廣告與營銷、博弈、醫療、訊息、視覺、機器人......之外,也將會是未來「通用型」人工智慧的重要發展因素!像是運用了強化學習的AlphaZero就一次攻克了圍棋、西洋棋、將棋 三種規則完全不同的棋類。


    Q:為何不直接使用主流的模型教學、而是從基礎教起呢?


    強化學習演算法的演進,都是基於前面的模型概念而延伸的!若只一昧追求效率較高的演算法而沒有從基礎觀念打起,便會無法針對問題需求去做調整,只能等別人分享改良過後的程式碼!


    講師簡介



    Jerry Wu 老師 — 現任Google機器學習開發專家、亞太智能機器創辦人兼技術長


    國立臺灣科技大學資訊管理所博士候選人。專注於機器智能(Machine Intelligence)的研發與整合,包含機器視覺(CV)與自然語言理解(NLU)。曾任國立台灣科技大學講師、外商數據科學顧問、汽車業資深數據科學顧問、DSP智庫驅動(股)共同創辦人兼技術長,歷經許多產、官、學、研機器智能專案。


    章节目录

    • 1-1
      何謂強化學習?
    • 1-2
      強化學習的應用?

    试阅影片

    常见问答

    如果您購買的是募資課程,請在課程的【簡介】中查看開課時間,募資課程將於開課時間所述日期開放同學上課。

     

    若您購買的是一般課程(開放上課課程),則在購買完成後可以立即開始觀看。

     

    所有線上課程皆不受時間限制,享無限次永久觀看!

    猜你喜欢

    购买前问答

    pufoo
    pufoo

    請問,當每章節實作時,都有附程式碼嗎?

    課程助教
    課程助教
    pufoo 您好,各章節的實作階段,都附有python程式碼。

    销售方案