AI 專家 Jerry Wu 組合｜機器學習 + TensorFlow 2 + 機器視覺 + 強化學習

Don't miss the limited offer!

4 course bundle

US$350.60

US$279.59

Other bundles

2 course bundle
AI 專家 Jerry Wu 組合｜機器學習應用 + 強化學習入門
US$180.06
US$158.44

Description

Click for settings

00:00

預購優惠名額

早鳥優惠價 : $3990 （名額有限，要搶要快！）

越早預購越划算，價格將依照課程製作完成度、購買人數、優惠名額...等條件，進行價格調整，以實際公告與當下購買之金額為主。

強化學習完全入門指南，搞懂現今最有潛力的機器學習方式！

# 從原理剖析到演算法精髓，帶你構建完整的強化學習知識體系

每種演算法都包含完整程式碼實作示範，讓你能夠實際體驗強化學習的訓練過程。
漸進式課程菜單規劃：從基本觀念、核心演算法，到現今應用主流的深度強化學習。
以Python與TensorFlow結合OpenAI實作三個小遊戲，真正體驗如何用AI解決問題。

想要完整入門強化學習，卻總是找不到合適的教材嗎？

別擔心，第一堂專為強化學習而生的中文線上課程來了！

在這堂課中，你將學會強化學習核心觀念與邏輯、10種強化學習經典演算法與各自適用情形、並利用深度學習改寫強化學習演算法，最後利用TensorFlow結合Gym實踐「過山車」、「立桿測驗」、「貪食蛇」三大實作！

課程實作搶先看，用強化學習讓你的電腦學會玩遊戲！

# 透過OpenAI提供的Python庫「Gym」，實踐強化學習理論

1. 平衡桿 (Cartpole)

遊戲規則：透過操縱底下的小車左右移動，使它上面不斷變長的木棒能夠保持平衡。

2. 過山車 (Mountain Car)

規則：向左/向右推動小車，小車若在時間之內若到達山頂，則遊戲勝利。

3. 貪食蛇

規則：透過操作一路拾起觸碰到的食物，並避免觸碰到自身或者其他障礙物。

為什麼 AI 能學會玩遊戲呢？帶你快速認識強化學習！

# 現今最熱門的機器學習技術！讓電腦用和人類一樣的方式學習

強化學習（英語：Reinforcement learning，簡稱RL）：是機器學習中的一個領域，強調電腦如何在沒有標籤資料的情況下，透過不斷的嘗試、從錯誤中學習調整自身策略、最終找到達成目標的方法的學習過程。由於近些年來的技術突破，和深度學習 (Deep Learning) 的整合，使得強化學習有了進一步的運用！

⭐️ 強化學習中的 5 個核心部分：
智能體(Agent)、狀態(State)、獎賞(Reward)、動作(Action)和環境(Environment)

以考試為例，Agent會做出一個 Action（認真讀書或打電動），這個 Action 會改變整個環境，讓環境進入下一個 State（段考結束），並讓 Agent 獲得相對應的 Reward（段考成績），根據得到的 Reward，Agent會學習並影響下一次的決策，透過不斷的與這個環境互動，不斷的得到各種 Reward，Agent即能慢慢成長並學習如何在這環境中生存了。

強化學習三大特色解析，打造「通用型」人工智慧的必經途徑之一！

# DeepMind的首席研究員David Silver曾說：「人工智慧=強化學習+深度學習。」

# 從遊戲、醫療、博弈到各種領域，未來「通用型」AI不可或缺的發展技術

課程內容與關鍵名詞介紹，一窺強化學習重點！

# 從基本概念到現今主流演算法，階段式規劃菜單讓你逐步精熟強化學習

Part1.｜強化學習核心概念：

馬可夫決策過程 (Markov decision process)：

透過MDPs來定義問題的內容，可以被想成一個智能體要解決問題的範疇。
透過學習MDPs，我們將能把待解決的情況規劃成強化學習問題。

價值函數(Value Functions)：

可以把價值函數想像成對一個動作的「效益」的估計值，透過價值函數的運作，
智能體可以知道在什麼狀態做出動作會獲得獎勵，進而朝向有獎勵的行為運作。

貝爾曼方程 (Bellman Equations)：

為了讓智能體能夠持續朝向獎勵高的方向運作，過程中就必須要求最好的價值函數，
透過貝爾曼方程計算每個狀態的價值函數，就能協助智能體找到最佳解決問題策略。

Part2.｜強化學習核心演算法：

動態規劃法(Dynamic Programming)：

假設在環境模型完全已知的狀況下，可透過動態規劃法求解MDP模型。
動態規劃有兩個重點觀念：策略評估 與 策略迭代。
使用策略迭代搜索最優策略、通過策略評估更新價值函數，就能找到最佳價值函數！

蒙地卡羅方法(Monte Carlo Methods)：

在解決實際問題中，我們通常不太容易獲得環境的準確模型
而蒙地卡羅方法，擅長從隨機採樣的過程進行未知參數的估計
透過不斷的迭代獲得的狀態與獎勵，讓強化學習達到最好的結果。

時間差分學習法(Temporal-Difference Learning)：

時間差分學習法結合了動態規劃法以及蒙特卡羅方法兩者的優點，
不僅可以單步更新，而且可以根據經驗進行學習，讓強化學習的過程效率增加。

Part3.｜深度強化學習主流演算法：

Deep Q-Learning：

深度強化學習(Deep Reinforcement Learning)是將深度學習與增強學習結合起來，
可以透過類神經網路的特性，盡可能讓智能體在運算時逼近最好的策略與價值函數。

衍生的演算法有：DQN、DDQN、Dueling DQN、DRQN

Advantage Actor Critic (A2C)：

讓強化學習中的演員(Actor)可以透過評論家(Critic)的打分數，持續進行調整參數
採用了策略梯度的做法，於是能在連續動作或者高維動作空間中選取合適的動作

Asynchronous Advantage Actor Critic (A3C)：

A3C是A2C的進化版本，
由於直接更新策略的方法，其疊代速度都是非常慢的
為了充分利用計算資源，因此A3C透過異步訓練提升速度。

系列式課程規劃，確保學習地圖不中斷！

# AutoML、機器對話、物體辨識...... 學會用 AI 打造符合自己目標需求的智能機器人！

快問快答

Q：我什麼都不會也可以學這堂課嗎？

這堂課需有Python基礎，較不適合完全零基礎的新手直接學習，但您可以透過HiSKIO上的《Python駭課》課程來補足課程所需核心！

Q：強化學習和深度學習我該學哪一個呢？

答案是都需要！

現今的主流強化學習應用皆以深度強化學習延伸為主，在深度神經網路的幫助下可以大大減小蒙地卡羅樹的規模。而強化學習也可以用來協助改寫深度學習演算法，在本次課程的後半段也會教你深度強化學習的核心概念與算法！

Q：學會強化學習在工作上有什麼樣的優勢嗎？

強化學習由於核心訓練方式具有通用性，因此強化學習的方法除了能夠延伸到許多領域，如：自駕車、推薦系統、廣告與營銷、博弈、醫療、訊息、視覺、機器人......之外，也將會是未來「通用型」人工智慧的重要發展因素！像是運用了強化學習的AlphaZero就一次攻克了圍棋、西洋棋、將棋三種規則完全不同的棋類。

Q：為何不直接使用主流的模型教學、而是從基礎教起呢？

強化學習演算法的演進，都是基於前面的模型概念而延伸的！若只一昧追求效率較高的演算法而沒有從基礎觀念打起，便會無法針對問題需求去做調整，只能等別人分享改良過後的程式碼！

講師簡介

Jerry Wu 老師 — 現任Google機器學習開發專家、亞太智能機器創辦人兼技術長

國立臺灣科技大學資訊管理所博士候選人。專注於機器智能(Machine Intelligence)的研發與整合，包含機器視覺(CV)與自然語言理解(NLU)。曾任國立台灣科技大學講師、外商數據科學顧問、汽車業資深數據科學顧問、DSP智庫驅動(股)共同創辦人兼技術長，歷經許多產、官、學、研機器智能專案。

Language

Currency