用Python實作強化學習｜使用TensorFlow與OpenAI Gym

強化學習可說是能自我演進的機器學習，能帶領我們達到真正的人工智慧。本書好讀又容易上手，運用了大量Python範例來從頭解釋所有東西。本書從強化學習的簡介開始，接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念，例如Markov決策過程、蒙地卡羅法與動態規劃，包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法，例如競爭

收集中

US$11.37

強化學習可說是能自我演進的機器學習，能帶領我們達到真正的人工智慧。本書好讀又容易上手，運用了大量Python範例來從頭解釋所有東西。

本書從強化學習的簡介開始，接著是OpenAI Gym與TensorFlow。您會認識各種RL演算法與重要觀念，例如Markov決策過程、蒙地卡羅法與動態規劃，包括價值迭代與策略迭代。本書提供了非常豐富的範例幫助您認識各種深度強化學習演算法，例如競爭DQN、DRQN、A3C、PPO與TRPO。您還會學到想像增強代理、透過人類偏好來學習、DQfD、HER以及更多強化學習的最新發展。

本書精彩內容：

．理解強化學習方法、演算法與重要元素的相關基礎

．使用OpenAI Gym與TensorFlow來訓練代理

．理解Markov決策過程、Bellman最佳化與TD學習

．運用多種演算法來解決多臂式吃角子老虎問題

．熟悉各種深度學習演算法，如RNN、LSTM、CNN與其應用

．使用DRQN演算法來建置智能代理來玩毀滅戰士遊戲

．使用DDPG來教導代理來玩月球冒險遊戲

．使用競爭DQN來訓練代理來玩賽車遊戲

章節目錄

1-1
封面頁
1-2
書名頁
1-3
關於作者
1-4
關於審校
1-5
目錄
1-6
前言
1-7
Ch01 認識強化學習
1-8
什麼是RL ？
1-9
RL 演算法
1-10
RL 與其他ML 方法有何不同？
1-11
RL 所包含的重要元素
1-12
代理
1-13
策略函數
1-14
價值函數
1-15
模型
1-16
代理環境介面
1-17
RL 的環境類型
1-18
決定型環境
1-19
隨機型環境
1-20
完全可觀察環境
1-21
部分可觀察環境
1-22
離散型環境
1-23
連續型環境
1-24
世代型與非世代型環境
1-25
單一代理與多重代理環境
1-26
RL 的各種平台
1-27
OpenAI Gym 與 Universe
1-28
DeepMind Lab
1-29
RL-Glue
1-30
Project Malmo
1-31
ViZDoom
1-32
RL 的各種應用
1-33
教育
1-34
醫學與健康照護
1-35
製造業
1-36
庫存管理
1-37
金融
1-38
自然語言處理與電腦視覺
1-39
總結
1-40
問題
1-41
延伸閱讀
1-42
Ch02 認識OpenAI 與TensorFlow
1-43
設定電腦
1-44
安裝 Anaconda
1-45
安裝 Docker
1-46
安裝 OpenAI Gym 與 Universe
1-47
OpenAI Gym
1-48
基本模擬
1-49
訓練機器人走路
1-50
OpenAI Universe
1-51
打造電玩機器人
1-52
TensorFlow
1-53
變數、常數與佔位符
1-54
運算圖
1-55
階段
1-56
TensorBoard
1-57
總結
1-58
問題
1-59
延伸閱讀
1-60
Ch03 Markov 決策過程與動態規劃
1-61
Markov 鏈與Markov 過程
1-62
Markov 決策過程
1-63
獎勵與回報
1-64
世代型與連續型任務
1-65
折扣因子
1-66
策略函數
1-67
狀態 - 價值函數
1-68
狀態 - 動作價值函數（Q 函數）
1-69
Bellman 方程式與最佳性
1-70
推導用於價值函數與 Q 函數的 Bellman 方程式
1-71
解Bellman 方程式
1-72
動態規劃
1-73
解決凍湖問題
1-74
價值迭代
1-75
策略迭代
1-76
總結
1-77
問題
1-78
延伸閱讀
1-79
Ch04 使用Monte Carlo方法來玩遊戲
1-80
Monte Carlo 方法
1-81
使用 Monte Carlo 來估算圓周率
1-82
Monte Carlo 預測
1-83
首次訪問 Monte Carlo
1-84
每次訪問 Monte Carlo
1-85
使用 Monte Carlo 來玩二十一點
1-86
Monte Carlo 控制
1-87
Monte Carlo 起始點
1-88
現時 Monte Carlo 控制
1-89
離線 Monte Carlo 控制
1-90
總結
1-91
問題
1-92
延伸閱讀
1-93
Ch05 時間差分學習
1-94
TD 學習
1-95
TD 預測
1-96
TD 控制
1-97
Q 學習
1-98
SARSA
1-99
Q 學習與SARSA 的差異
1-100
總結
1-101
問題
1-102
延伸閱讀
1-103
Ch06 多臂式吃角子老虎機問題
1-104
MAB 問題
1-105
epsilon- 貪婪策略
1-106
softmax 探索演算法
1-107
信賴區間上限演算法
1-108
湯普森取樣演算法
1-109
MAB 的應用
1-110
使用MAB 來找出正確的廣告橫幅
1-111
情境式吃角子老虎機
1-112
總結
1-113
問題
1-114
延伸閱讀
1-115
Ch07 深度學習的基礎概念
1-116
人工神經元
1-117
類神經網路
1-118
輸入層
1-119
隱藏層
1-120
輸出層
1-121
觸發函數
1-122
深入理解ANN
1-123
梯度下降
1-124
TensorFlow 中的神經網路
1-125
RNN
1-126
隨著時間進行反向傳播
1-127
長短期記憶RNN
1-128
使用 LSTM RNN 來產生歌詞
1-129
卷積神經網路
1-130
卷積層
1-131
池化層
1-132
全連接層
1-133
CNN 的架構
1-134
使用CNN 來分類時尚產品
1-135
總結
1-136
問題
1-137
延伸閱讀
1-138
Ch08 使用深度Q 網路來玩Atari 遊戲
1-139
什麼是深度Q 網路？
1-140
DQN 的架構
1-141
卷積網路
1-142
經驗回放
1-143
目標網路
1-144
獎勵修剪
1-145
認識演算法
1-146
建立代理來進行Atari 遊戲
1-147
雙層DQN
1-148
優先經驗回放
1-149
競爭網路架構
1-150
總結
1-151
問題
1-152
延伸閱讀
1-153
Ch09 使用深度循環Q 網路來玩毀滅戰士
1-154
DRQN
1-155
DRQN 的架構
1-156
訓練代理來玩毀滅戰士
1-157
簡易毀滅戰士遊戲
1-158
使用 DRQN 來玩毀滅戰士
1-159
DARQN
1-160
DARQN 的架構
1-161
總結
1-162
問題
1-163
延伸閱讀
1-164
Ch10 非同步優勢動作評價網路
1-165
非同步優勢動作評價
1-166
三個 A
1-167
A3C 的架構
1-168
A3C 的運作原理
1-169
使用A3C 來爬山
1-170
在 TensorBoard 中來視覺化呈現
1-171
總結
1-172
問題
1-173
延伸閱讀
1-174
Ch11 策略梯度與最佳化
1-175
策略梯度
1-176
使用策略梯度來玩月球冒險遊戲
1-177
深度確定性策略梯度
1-178
搖動單擺
1-179
信賴域策略最佳化
1-180
近端策略最佳化
1-181
總結
1-182
問題
1-183
延伸閱讀
1-184
Ch12 總和專題–使用DQN 來玩賽車遊戲
1-185
環境包裝函數
1-186
競爭網路
1-187
回放記憶
1-188
訓練網路
1-189
賽車遊戲
1-190
總結
1-191
問題
1-192
延伸閱讀
1-193
Ch13 近期發展與下一步
1-194
想像增強代理
1-195
由人類偏好來學習
1-196
由示範來進行深度Q 學習
1-197
事後經驗回放
1-198
層次強化學習
1-199
MAXQ 價值函數分解
1-200
逆向強化學習
1-201
總結
1-202
問題
1-203
延伸閱讀
1-204
附錄A 參考答案
1-205
版權頁
1-206
封底頁

用戶評價

| 收集中

語言

幣別

語言

幣別

用Python實作強化學習｜使用TensorFlow與OpenAI Gym

章節目錄

常見問答

猜你喜歡

專技高考-職業衛生技師歷屆考題彙編｜第三版

AI繪圖完全攻略｜Midjourney、Leonardo.Ai、DALL·E、ChatGPT、Copilot、Canva GPT、MS Designer

OpenAI API基礎必修課--使用Python(GPT-3.5、GPT-4、GPT-4o、DALL·E、TTS、Whisper模型)

Visual C#程式設計經典-邁向Azure雲端、AI影像辨識與OpenAI API服務開發(適用C# 2022∕2019∕2017)

文科生也可以輕鬆學會Web Scraper網路爬蟲與Power Automate X Excel大數據分析

用戶評價

章節目錄

1目錄共 206 單元

常見問答

Q 電子書購買後，怎麼觀看呢？

Q 電子書有觀看時間的限制嗎？

Q ePub 和 PDF 的差別？

Q 購買電子書有發票嗎？可以開統編發票嗎？

Q 為什麼我已經購買電子書，卻找不到它？

猜你喜歡

專技高考-職業衛生技師歷屆考題彙編｜第三版

AI繪圖完全攻略｜Midjourney、Leonardo.Ai、DALL·E、ChatGPT、Copilot、Canva GPT、MS Designer

OpenAI API基礎必修課--使用Python(GPT-3.5、GPT-4、GPT-4o、DALL·E、TTS、Whisper模型)

Visual C#程式設計經典-邁向Azure雲端、AI影像辨識與OpenAI API服務開發(適用C# 2022∕2019∕2017)

文科生也可以輕鬆學會Web Scraper網路爬蟲與Power Automate X Excel大數據分析

用戶評價

銷售方案