用Python實作強化學習|使用TensorFlow與OpenAI Gym

    強化學習可說是能自我演進的機器學習,能帶領我們達到真正的人工智慧。本書好讀又容易上手,運用了大量Python範例來從頭解釋所有東西。 本書從強化學習的簡介開始,接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念,例如Markov決策過程、蒙地卡羅法與動態規劃,包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法,例如競爭

    收集中
    US$11.37

    強化學習可說是能自我演進的機器學習,能帶領我們達到真正的人工智慧。本書好讀又容易上手,運用了大量Python範例來從頭解釋所有東西。


    本書從強化學習的簡介開始,接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念,例如Markov決策過程、蒙地卡羅法與動態規劃,包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法,例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。


    本書精彩內容:

    .理解強化學習方法、演算法與重要元素的相關基礎

    .使用OpenAI Gym與TensorFlow來訓練代理

    .理解Markov決策過程、Bellman最佳化與TD學習

    .運用多種演算法來解決多臂式吃角子老虎問題

    .熟悉各種深度學習演算法,如RNN、LSTM、CNN與其應用

    .使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲

    .使用DDPG來教導代理來玩月球冒險遊戲

    .使用競爭DQN來訓練代理來玩賽車遊戲

    章節目錄

    • 1-1
      封面頁
    • 1-2
      書名頁
    • 1-3
      關於作者
    • 1-4
      關於審校
    • 1-5
      目錄
    • 1-6
      前言
    • 1-7
      Ch01 認識強化學習
    • 1-8
      什麼是RL ?
    • 1-9
      RL 演算法
    • 1-10
      RL 與其他ML 方法有何不同?
    • 1-11
      RL 所包含的重要元素
    • 1-12
      代理
    • 1-13
      策略函數
    • 1-14
      價值函數
    • 1-15
      模型
    • 1-16
      代理環境介面
    • 1-17
      RL 的環境類型
    • 1-18
      決定型環境
    • 1-19
      隨機型環境
    • 1-20
      完全可觀察環境
    • 1-21
      部分可觀察環境
    • 1-22
      離散型環境
    • 1-23
      連續型環境
    • 1-24
      世代型與非世代型環境
    • 1-25
      單一代理與多重代理環境
    • 1-26
      RL 的各種平台
    • 1-27
      OpenAI Gym 與 Universe
    • 1-28
      DeepMind Lab
    • 1-29
      RL-Glue
    • 1-30
      Project Malmo
    • 1-31
      ViZDoom
    • 1-32
      RL 的各種應用
    • 1-33
      教育
    • 1-34
      醫學與健康照護
    • 1-35
      製造業
    • 1-36
      庫存管理
    • 1-37
      金融
    • 1-38
      自然語言處理與電腦視覺
    • 1-39
      總結
    • 1-40
      問題
    • 1-41
      延伸閱讀
    • 1-42
      Ch02 認識OpenAI 與TensorFlow
    • 1-43
      設定電腦
    • 1-44
      安裝 Anaconda
    • 1-45
      安裝 Docker
    • 1-46
      安裝 OpenAI Gym 與 Universe
    • 1-47
      OpenAI Gym
    • 1-48
      基本模擬
    • 1-49
      訓練機器人走路
    • 1-50
      OpenAI Universe
    • 1-51
      打造電玩機器人
    • 1-52
      TensorFlow
    • 1-53
      變數、常數與佔位符
    • 1-54
      運算圖
    • 1-55
      階段
    • 1-56
      TensorBoard
    • 1-57
      總結
    • 1-58
      問題
    • 1-59
      延伸閱讀
    • 1-60
      Ch03 Markov 決策過程與動態規劃
    • 1-61
      Markov 鏈與Markov 過程
    • 1-62
      Markov 決策過程
    • 1-63
      獎勵與回報
    • 1-64
      世代型與連續型任務
    • 1-65
      折扣因子
    • 1-66
      策略函數
    • 1-67
      狀態 - 價值函數
    • 1-68
      狀態 - 動作價值函數(Q 函數)
    • 1-69
      Bellman 方程式與最佳性
    • 1-70
      推導用於價值函數與 Q 函數的 Bellman 方程式
    • 1-71
      解Bellman 方程式
    • 1-72
      動態規劃
    • 1-73
      解決凍湖問題
    • 1-74
      價值迭代
    • 1-75
      策略迭代
    • 1-76
      總結
    • 1-77
      問題
    • 1-78
      延伸閱讀
    • 1-79
      Ch04 使用Monte Carlo方法來玩遊戲
    • 1-80
      Monte Carlo 方法
    • 1-81
      使用 Monte Carlo 來估算圓周率
    • 1-82
      Monte Carlo 預測
    • 1-83
      首次訪問 Monte Carlo
    • 1-84
      每次訪問 Monte Carlo
    • 1-85
      使用 Monte Carlo 來玩二十一點
    • 1-86
      Monte Carlo 控制
    • 1-87
      Monte Carlo 起始點
    • 1-88
      現時 Monte Carlo 控制
    • 1-89
      離線 Monte Carlo 控制
    • 1-90
      總結
    • 1-91
      問題
    • 1-92
      延伸閱讀
    • 1-93
      Ch05 時間差分學習
    • 1-94
      TD 學習
    • 1-95
      TD 預測
    • 1-96
      TD 控制
    • 1-97
      Q 學習
    • 1-98
      SARSA
    • 1-99
      Q 學習與SARSA 的差異
    • 1-100
      總結
    • 1-101
      問題
    • 1-102
      延伸閱讀
    • 1-103
      Ch06 多臂式吃角子老虎機問題
    • 1-104
      MAB 問題
    • 1-105
      epsilon- 貪婪策略
    • 1-106
      softmax 探索演算法
    • 1-107
      信賴區間上限演算法
    • 1-108
      湯普森取樣演算法
    • 1-109
      MAB 的應用
    • 1-110
      使用MAB 來找出正確的廣告橫幅
    • 1-111
      情境式吃角子老虎機
    • 1-112
      總結
    • 1-113
      問題
    • 1-114
      延伸閱讀
    • 1-115
      Ch07 深度學習的基礎概念
    • 1-116
      人工神經元
    • 1-117
      類神經網路
    • 1-118
      輸入層
    • 1-119
      隱藏層
    • 1-120
      輸出層
    • 1-121
      觸發函數
    • 1-122
      深入理解ANN
    • 1-123
      梯度下降
    • 1-124
      TensorFlow 中的神經網路
    • 1-125
      RNN
    • 1-126
      隨著時間進行反向傳播
    • 1-127
      長短期記憶RNN
    • 1-128
      使用 LSTM RNN 來產生歌詞
    • 1-129
      卷積神經網路
    • 1-130
      卷積層
    • 1-131
      池化層
    • 1-132
      全連接層
    • 1-133
      CNN 的架構
    • 1-134
      使用CNN 來分類時尚產品
    • 1-135
      總結
    • 1-136
      問題
    • 1-137
      延伸閱讀
    • 1-138
      Ch08 使用深度Q 網路來玩Atari 遊戲
    • 1-139
      什麼是深度Q 網路?
    • 1-140
      DQN 的架構
    • 1-141
      卷積網路
    • 1-142
      經驗回放
    • 1-143
      目標網路
    • 1-144
      獎勵修剪
    • 1-145
      認識演算法
    • 1-146
      建立代理來進行Atari 遊戲
    • 1-147
      雙層DQN
    • 1-148
      優先經驗回放
    • 1-149
      競爭網路架構
    • 1-150
      總結
    • 1-151
      問題
    • 1-152
      延伸閱讀
    • 1-153
      Ch09 使用深度循環Q 網路來玩毀滅戰士
    • 1-154
      DRQN
    • 1-155
      DRQN 的架構
    • 1-156
      訓練代理來玩毀滅戰士
    • 1-157
      簡易毀滅戰士遊戲
    • 1-158
      使用 DRQN 來玩毀滅戰士
    • 1-159
      DARQN
    • 1-160
      DARQN 的架構
    • 1-161
      總結
    • 1-162
      問題
    • 1-163
      延伸閱讀
    • 1-164
      Ch10 非同步優勢動作評價網路
    • 1-165
      非同步優勢動作評價
    • 1-166
      三個 A
    • 1-167
      A3C 的架構
    • 1-168
      A3C 的運作原理
    • 1-169
      使用A3C 來爬山
    • 1-170
      在 TensorBoard 中來視覺化呈現
    • 1-171
      總結
    • 1-172
      問題
    • 1-173
      延伸閱讀
    • 1-174
      Ch11 策略梯度與最佳化
    • 1-175
      策略梯度
    • 1-176
      使用策略梯度來玩月球冒險遊戲
    • 1-177
      深度確定性策略梯度
    • 1-178
      搖動單擺
    • 1-179
      信賴域策略最佳化
    • 1-180
      近端策略最佳化
    • 1-181
      總結
    • 1-182
      問題
    • 1-183
      延伸閱讀
    • 1-184
      Ch12 總和專題–使用DQN 來玩賽車遊戲
    • 1-185
      環境包裝函數
    • 1-186
      競爭網路
    • 1-187
      回放記憶
    • 1-188
      訓練網路
    • 1-189
      賽車遊戲
    • 1-190
      總結
    • 1-191
      問題
    • 1-192
      延伸閱讀
    • 1-193
      Ch13 近期發展與下一步
    • 1-194
      想像增強代理
    • 1-195
      由人類偏好來學習
    • 1-196
      由示範來進行深度Q 學習
    • 1-197
      事後經驗回放
    • 1-198
      層次強化學習
    • 1-199
      MAXQ 價值函數分解
    • 1-200
      逆向強化學習
    • 1-201
      總結
    • 1-202
      問題
    • 1-203
      延伸閱讀
    • 1-204
      附錄A 參考答案
    • 1-205
      版權頁
    • 1-206
      封底頁

    常見問答

    您可以透過手機、平板或是電腦登入 HiSKIO 平台,在【我的學習】>【我的書籍】頁面,選擇想看的電子書。

    猜你喜歡

    用戶評價

    | 收集中

    銷售方案