Python大數據特訓班(第三版):資料自動化收集、整理、清洗、儲存、分析與應用實戰

    讓你輕鬆建立Data Pipeline

    Collecting
    US$16.48

    內容簡介


    Python暢銷經典主題強化再升級

    運用世界級熱門開發平台
    迅速掌握資料處理要領,深入全方位專案主題
    立即體驗Python的大數據超強實戰力

    面對大數據資料
    如何爬取?如何整理?如何儲存?
    如何分析?如何呈現?最後要如何應用?
    就從熱門案例切入,快速搜集梳理巨量資訊!

    熱門搜尋關鍵字、股票的交易資訊、政府的公開資料、社群網站上傳的圖片與影音,以及實體通路或網路商店的銷售數據…等,都讓資料量快速爆增。大數據時代來臨,不僅科技業重視,就連傳統的零售業、金融業、製造業、旅遊業,以及政府都爭相投入,無不希望能運用數據分析與預測來協助決策方向,掌握數據就能找出趨勢的出路與提高判斷的精準度,也讓新興的數據分析師、資料分析師、資料科學家成為熱門職業。

    Python無疑是大數據與AI時代第一程式語言,在數據資料處理的領域中有著非常重要的地位。本書由生活出發,以專題實戰,只要能掌握數據資料爬取清洗、儲存整理、統計分析、視覺化呈現,以及跨領域應用的關鍵技術,就能掌控大數據的應用。

    ■完整學習Python資料處理的4大觀念與技術:爬取清理、讀取儲存、統計分析、呈現與應用。

    ■快速熟悉Python熱門開發平台Google Colab,建立資料科學的基本觀念,學會Python語法函數模組的應用,並透過資料分析實作演練,培養數據分析開發領域所需的技能。

    ■全面深入不同應用面向,如:網路爬蟲、資料正規化、資料視覺化、資料儲存與讀取(CSV、Excel、Google試算表、多媒體檔案擷取…)、批次檔案下載、公開資料應用、API建立…

    ■以最多元的熱門實例進行大數據專案實作,如:LINE貼圖收集、線上相簿批次下載、YouTube影片、音檔及播放清單下載,股票市場個股分析統計圖、股價資訊即時推播、網路新書排行榜、人力銀行求職資訊分析、超商門市資訊收集、即時網路聲量輿情觀察、網路線上字典,以及Web API開發…

    ■範例程式另提供Python筆記神器:Jupyter Notebook格式檔案,讓學習與操作更便利。

    ■針對專案實戰提供影音輔助教學,加速學習效率。

    【書附超值學習資源】320分鐘專案實戰影音教學/範例程式檔/「打造自己的疫情指揮中心:新冠肺炎數據分析實戰」教學影片

    作者介紹


    一個致力於資訊圖書創作二十餘載的工作團隊,擅長用輕鬆詼諧的筆觸,深入淺出介紹難懂的 IT 技術,並以範例帶領讀者學習電腦應用的大小事。
    我們不賣弄深奧的專有名辭,奮力堅持吸收新知的態度,誠懇地與讀者分享在學習路上的點點滴滴,讓軟體成為每個人改善生活應用、提昇工作效率的工具。
    舉凡程式開發、文書處理、美工動畫、攝影修片、網頁製作,都是我們專注的重點,而不同領域有各自專業的作者組成,以進行書籍的規劃與編寫。一直以來,感謝許多讀者與學校老師的支持,選定為自修用書或授課教材。衷心期待能盡我們的心力,幫助每一位讀者燃燒心中的小宇宙,用學習的成果在自己的領域裡發光發熱!
    我們期待自己能在每一本創作中注入快快樂樂的心情來分享, 也期待讀者能在這樣的氛圍下快快樂樂的學習。

    官方網站:www.e-happy.com.tw
    FB粉絲團:www.facebook.com/ehappytw

    目錄


    01 Python 雲端開發平台:Colab

    1.1 Google Colab:雲端開發平台
    1.2 Colab的筆記功能

    02 數據資料的爬取

    2.1 requests模組:讀取網站檔案
    2.2 BeautifulSoup模組:網頁解析
    2.3 使用正規表達式

    03 數據資料的儲存與讀取

    3.1 檔案的讀寫
    3.2 csv資料的儲存與讀取
    3.3 json資料的儲存與讀取
    3.4 Excel資料儲存與讀取
    3.5 SQLite資料庫的操作
    3.6 Google試算表的操作

    04 數據資料視覺化

    4.1 繪製折線圖:plot
    4.2 長條圖與橫條圖:bar、barh
    4.3 圓形圖:pie
    4.4 直方圖:hist
    4.5 散佈圖:scatter
    4.6 設定圖表區:figure
    4.7 在圖表區加入多張圖表:subplot、axes

    05 Numpy數據運算

    5.1 Numpy:高速運算的解決方案
    5.2 Numpy陣列建立
    5.3 Numpy陣列取值
    5.4 Numpy的陣列運算功能

    06 Pandas資料處理

    6.1 Pandas Series的建立與取值
    6.2 Pandas DataFrame的建立
    6.3 DataFrame資料取值
    6.4 DataFrame資料操作
    6.5 Pandas資料存取
    6.6 Pandas模組:繪圖應用
    6.7 Pandas資料清洗
    6.8 Pandas 資料篩選、分組運算

    07 LINE貼圖收集器

    7.1 專題方向
    7.2 關鍵技術
    7.3 實戰:LINE貼圖收集器

    08 YouTube影片資源下載

    8.1 專題方向
    8.2 關鍵技術
    8.3 實戰:批次下載YouTube影片

    09 運動相簿批次爬取

    9.1 專題方向
    9.2 關鍵技術
    9.3 實戰:運動相簿批次爬取
    9.4 非同步模組-concurrent.futures

    10 台灣股票市場分析統計圖

    10.1 專題方向
    10.2 關鍵技術
    10.3 實戰:個股單月與年度統計圖

    11 行動股市即時報價

    11.1 專題方向
    11.2 關鍵技術
    11.3 實戰:用LINE傳送即時股價

    12 網路書店新書排行榜

    12.1 專題方向
    12.2 關鍵技術
    12.3 實戰:網路書店新書排行榜

    13 人力銀行網站求職小幫手

    13.1 專題方向
    13.2 關鍵技術
    13.3 實戰:1111人力銀行求職小幫手

    14 7-11超商門市資料下載

    14.1 專題方向
    14.2 關鍵技術
    14.3 實戰:7-11超商門市資料下載

    15 即時網路聲量輿情收集器

    15.1 專題方向
    15.2 關鍵技術
    15.3 實戰:即時網路聲量輿情資料下載

    16 線上國語字典

    16.1 專題方向
    16.2 關鍵技術
    16.3 實戰:建立線上國語字典及Web App

    Content

    • 1-1
      封面頁
    • 1-2
      書名頁
    • 1-3
      關於文淵閣工作室
    • 1-4
      前言
    • 1-5
      學習資源說明
    • 1-6
      目錄
    • 1-7
      CH01 Python 雲端開發平台:Colab
    • 1-8
      1.1 Google Colab:雲端開發平台
    • 1-9
      1.1.1 Colab 的介紹
    • 1-10
      1.1.2 Colab 建立筆記本
    • 1-11
      1.1.3 Colab 筆記本基本操作
    • 1-12
      1.1.4 Colab 的建議設定
    • 1-13
      1.1.5 Colab 虛擬機器的檔案管理
    • 1-14
      1.1.6 Colab 掛接Google 雲端硬碟
    • 1-15
      1.1.7 執行Shell 命令:「!」
    • 1-16
      1.1.8 魔術指令:「%」
    • 1-17
      1.1.9 Colab 筆記本檔案的下載與上傳
    • 1-18
      1.2 Colab 的筆記功能
    • 1-19
      1.2.1 Markdown 語法
    • 1-20
      1.2.2 區塊元素
    • 1-21
      1.2.3 行內元素
    • 1-22
      CH02 數據資料的爬取
    • 1-23
      2.1 requests 模組:讀取網站檔案
    • 1-24
      2.1.1 網路資料爬取的原理
    • 1-25
      2.1.2 發送GET 請求
    • 1-26
      2.1.3 發送POST 請求
    • 1-27
      2.1.4 自訂HTTP Headers 偽裝瀏覽器操作
    • 1-28
      2.1.5 使用Session 及Cookie 進入認證頁面
    • 1-29
      2.2 BeautifulSoup 模組:網頁解析
    • 1-30
      2.2.1 安裝Beautifulsoup 模組
    • 1-31
      2.2.2 認識網頁的結構
    • 1-32
      2.2.3 BeautifulSoup 的使用
    • 1-33
      2.2.4 BeautifulSoup 常用的屬性
    • 1-34
      2.2.5 BeautifulSoup 常用的方法
    • 1-35
      2.2.6 找尋指定標籤的內容:find()、find_all()
    • 1-36
      2.2.7 利用CSS 選擇器找尋內容:select()
    • 1-37
      2.2.8 取得標籤的屬性內容
    • 1-38
      2.2.9 專題:威力彩開獎號碼
    • 1-39
      2.3 使用正規表達式
    • 1-40
      2.3.1 正規表達式的使用
    • 1-41
      2.3.2 正規表達式的範例
    • 1-42
      2.3.3 建立正規表達式物件
    • 1-43
      2.3.4 正規表達式物件的方法
    • 1-44
      2.3.5 使用正規表達式取代內容
    • 1-45
      2.3.6 範例:正規表達式練習
    • 1-46
      CH03 數據資料的儲存與讀取
    • 1-47
      3.1 檔案的讀寫
    • 1-48
      3.1.1 檔案的建立與寫入
    • 1-49
      3.1.2 檔案讀取及處理
    • 1-50
      3.2 csv 資料的儲存與讀取
    • 1-51
      3.2.1 認識CSV
    • 1-52
      3.2.2 csv 檔案儲存
    • 1-53
      3.2.3 csv 檔案讀取
    • 1-54
      3.3 json 資料的儲存與讀取
    • 1-55
      3.3.1 認識json
    • 1-56
      3.3.2 json 模組的使用
    • 1-57
      3.3.3 json 讀取資料
    • 1-58
      3.3.4 json 輸出資料
    • 1-59
      3.4 Excel 資料儲存與讀取
    • 1-60
      3.4.1 Excel 檔案新增及儲存
    • 1-61
      3.4.2 Excel 檔案讀取及編輯
    • 1-62
      3.5 SQLite 資料庫的操作
    • 1-63
      3.5.1 使用 sqlite3 模組
    • 1-64
      3.5.2 使用 cursor 物件操作資料庫
    • 1-65
      3.5.3 檢視SQLite 資料庫內容
    • 1-66
      3.5.4 使用連線物件操作資料庫
    • 1-67
      3.5.5 執行資料查詢
    • 1-68
      3.6 Google 試算表的操作
    • 1-69
      3.6.1 連接Google 試算表前的注意事項
    • 1-70
      3.6.2 Google Developers Console 的設定
    • 1-71
      3.6.3 Google 試算表的權限設定
    • 1-72
      3.6.4 連結Google 試算表
    • 1-73
      3.6.5 操作Google 試算表的資料
    • 1-74
      CH04 數據資料視覺化
    • 1-75
      4.1 繪製折線圖:plot
    • 1-76
      4.1.1 Matplotlib 模組的使用
    • 1-77
      4.1.2 繪製折線圖
    • 1-78
      4.1.3 設定線條、標記及圖例
    • 1-79
      4.1.4 設定圖表及xy 軸標題
    • 1-80
      4.1.5 設定xy 軸資料範圍
    • 1-81
      4.1.6 設定格線
    • 1-82
      4.1.7 同時繪製多組資料
    • 1-83
      4.1.8 自定軸刻度
    • 1-84
      4.1.9 範例:各年度銷售報表
    • 1-85
      4.1.10 Matplotlib 圖表中文顯示問題
    • 1-86
      4.2 長條圖與橫條圖:bar、barh
    • 1-87
      4.2.1 繪製長條圖
    • 1-88
      4.2.2 繪製橫條圖
    • 1-89
      4.2.3 繪製堆疊長條圖
    • 1-90
      4.2.4 繪製並列長條圖
    • 1-91
      4.3 圓形圖:pie
    • 1-92
      4.4 直方圖:hist
    • 1-93
      4.5 散佈圖:scatter
    • 1-94
      4.6 設定圖表區:figure
    • 1-95
      4.7 在圖表區加入多張圖表:subplot、axes
    • 1-96
      4.7.1 用欄列排列多張圖表:subplot()
    • 1-97
      4.7.2 用相對位置排列多張圖表:axes
    • 1-98
      4.7.3 專題:圖書分類銷售分析圖
    • 1-99
      CH05 Numpy 數據運算
    • 1-100
      5.1 Numpy:高速運算的解決方案
    • 1-101
      5.1.1 安裝Numpy 與載入模組
    • 1-102
      5.1.2 認識Numpy 陣列
    • 1-103
      5.2 Numpy 陣列建立
    • 1-104
      5.2.1 建立基本陣列
    • 1-105
      5.2.2 建立多維陣列
    • 1-106
      5.2.3 改變陣列形狀:reshape()
    • 1-107
      5.3 Numpy 陣列取值
    • 1-108
      5.3.1 一維陣列取值
    • 1-109
      5.3.2 多維陣列取值
    • 1-110
      5.3.3 產生隨機資料:np.ramdom()
    • 1-111
      5.3.4 Numpy 讀取CSV 檔案
    • 1-112
      5.4 Numpy 的陣列運算功能
    • 1-113
      5.4.1 Numpy 陣列運算
    • 1-114
      5.4.2 Numpy 常用的計算及統計函式
    • 1-115
      5.4.3 Numpy 的排序
    • 1-116
      CH06 Pandas 資料處理
    • 1-117
      6.1 Pandas Series 的建立與取值
    • 1-118
      6.1.1 建立Series
    • 1-119
      6.1.2 Series 資料取值
    • 1-120
      6.2 Pandas DataFrame 的建立
    • 1-121
      6.2.1 建立DataFrame
    • 1-122
      6.2.2 利用字典建立DataFrame
    • 1-123
      6.2.3 利用Series 建立DataFrame
    • 1-124
      6.3 DataFrame 資料取值
    • 1-125
      6.3.1 DataFrame 基本取值
    • 1-126
      6.3.2 以索引及欄位名稱取得資料:df.loc[]
    • 1-127
      6.3.3 以索引及欄位編號取得資料:df.iloc[]
    • 1-128
      6.3.4 取得最前或最後數列資料
    • 1-129
      6.4 DataFrame 資料操作
    • 1-130
      6.4.1 DataFrame 資料排序
    • 1-131
      6.4.2 DataFrame 資料修改
    • 1-132
      6.4.3 刪除 DataFrame 資料
    • 1-133
      6.5 Pandas 資料存取
    • 1-134
      6.5.1 使用Pandas 讀取資料
    • 1-135
      6.5.2 使用Pandas 儲存資料
    • 1-136
      6.6 Pandas 模組:繪圖應用
    • 1-137
      6.6.1 plot 繪圖方法
    • 1-138
      6.6.2 繪製長條圖、橫條圖、堆疊圖
    • 1-139
      6.6.3 繪製折線圖
    • 1-140
      6.6.4 繪製圓餅圖
    • 1-141
      6.7 Pandas 資料清洗
    • 1-142
      6.7.1 空值的處理
    • 1-143
      6.7.2 去除重複資料
    • 1-144
      6.7.3 資料內容的置換
    • 1-145
      6.7.4 調整資料的格式
    • 1-146
      6.8 Pandas 資料篩選、分組運算
    • 1-147
      6.8.1 Pandas 資料篩選
    • 1-148
      6.8.2 Pandas 資料分組運算
    • 1-149
      CH07 LINE 貼圖收集器
    • 1-150
      7.1 專題方向
    • 1-151
      7.2 關鍵技術
    • 1-152
      7.2.1 網頁原始碼分析
    • 1-153
      7.2.2 擷取指定標籤和鍵值資料
    • 1-154
      7.3 實戰:LINE 貼圖收集器
    • 1-155
      7.3.1 LINE 貼圖下載
    • 1-156
      7.3.2 完整程式碼
    • 1-157
      7.3.3 延伸應用
    • 1-158
      CH08 YouTube 影片資源下載
    • 1-159
      8.1 專題方向
    • 1-160
      8.2 關鍵技術
    • 1-161
      8.2.1 Pytube 模組的使用
    • 1-162
      8.2.2 影片名稱及存檔路徑
    • 1-163
      8.2.3 影片格式
    • 1-164
      8.2.4 下載聲音檔
    • 1-165
      8.3 實戰:批次下載YouTube 影片
    • 1-166
      8.3.1 認識YouTube 播放清單
    • 1-167
      8.3.2 批次下載播放清單中所有影片
    • 1-168
      8.3.3 延伸應用
    • 1-169
      CH09 運動相簿批次爬取
    • 1-170
      9.1 專題方向
    • 1-171
      9.2 關鍵技術
    • 1-172
      9.2.1 取得相簿資訊與圖片位址
    • 1-173
      9.2.2 擷取非同步載入資料
    • 1-174
      9.3 實戰:運動相簿批次爬取
    • 1-175
      9.3.1 運動相簿照片基本下載
    • 1-176
      9.3.2 運動相簿照片批次下載
    • 1-177
      9.4 非同步模組- concurrent.futures
    • 1-178
      9.4.1 運動相簿照片非同步下載
    • 1-179
      9.4.2 延伸應用
    • 1-180
      CH10 台灣股票市場分析統計圖
    • 1-181
      10.1 專題方向
    • 1-182
      10.2 關鍵技術
    • 1-183
      10.2.1 取得單月股票資料
    • 1-184
      10.2.2 自訂日期格式轉換函式:convertDate
    • 1-185
      10.2.3 全年個股單月網址及結合月份資料
    • 1-186
      10.3 實戰:個股單月與年度統計圖
    • 1-187
      10.3.1 單月個股統計圖
    • 1-188
      10.3.2 全年個股統計圖
    • 1-189
      10.3.3 以 plotly 繪製全年個股統計圖
    • 1-190
      10.3.4 延伸應用
    • 1-191
      CH11 行動股市即時報價
    • 1-192
      11.1 專題方向
    • 1-193
      11.2 關鍵技術
    • 1-194
      11.2.1 台灣股市資訊模組:twstock
    • 1-195
      11.2.2 申請 LINE Notify 權杖
    • 1-196
      11.2.3 發送 LINE Notify 通知
    • 1-197
      11.3 實戰:用LINE 傳送即時股價
    • 1-198
      11.3.1 執行情形
    • 1-199
      11.3.2 完整程式碼
    • 1-200
      11.3.3 延伸應用
    • 1-201
      CH12 網路書店新書排行榜
    • 1-202
      12.1 專題方向
    • 1-203
      12.2 關鍵技術
    • 1-204
      12.2.1 URL 參數的分析
    • 1-205
      12.2.2 取得新書分類頁面相關資料
    • 1-206
      12.2.3 上傳資料到Google 試算表
    • 1-207
      12.3 實戰:網路書店新書排行榜
    • 1-208
      12.3.1 取得新書分類排行榜資料
    • 1-209
      12.3.2 將資料儲存到 Google 試算表
    • 1-210
      12.3.3 延伸應用
    • 1-211
      CH13 人力銀行網站求職小幫手
    • 1-212
      13.1 專題方向
    • 1-213
      13.2 關鍵技術
    • 1-214
      13.2.1 分析網址參數
    • 1-215
      13.2.2 擷取資料總筆數及計算頁數
    • 1-216
      13.2.3 擷取職缺各欄位資料
    • 1-217
      13.2.4 Pandas 篩選文字欄位資料
    • 1-218
      13.3 實戰:1111 人力銀行求職小幫手
    • 1-219
      13.3.1 擷取電腦相關行業職缺資料
    • 1-220
      13.3.2 統計六都職缺數量分布
    • 1-221
      13.3.3 統計六都平均薪資金額
    • 1-222
      13.3.4 延伸應用
    • 1-223
      CH14 7-11 超商門市資料下載
    • 1-224
      14.1 專題方向
    • 1-225
      14.2 關鍵技術
    • 1-226
      14.2.1 取得下拉式功能表的縣市資料
    • 1-227
      14.2.2 下載各縣市的資料
    • 1-228
      14.2.3 將資料儲存在 Excel 檔案中
    • 1-229
      14.3 實戰:7-11 超商門市資料下載
    • 1-230
      14.3.1 下載單一縣市超商門市資料
    • 1-231
      14.3.2 使用Pandas 將資料儲存成 Excel 檔案
    • 1-232
      14.3.3 以縣市為工作表儲存成 Excel 活頁簿
    • 1-233
      14.3.4 延伸應用
    • 1-234
      CH15 即時網路聲量輿情收集器
    • 1-235
      15.1 專題方向
    • 1-236
      15.2 關鍵技術
    • 1-237
      15.2.1 擷取及分析非同步載入資料
    • 1-238
      15.2.2 下載指定日期的資料
    • 1-239
      15.2.3 將資料儲存在 txt 檔案中
    • 1-240
      15.3 實戰:即時網路聲量輿情資料下載
    • 1-241
      15.3.1 擷取即時熱門關鍵字及資訊
    • 1-242
      15.3.2 依日期儲存收集結果
    • 1-243
      15.3.3 延伸應用
    • 1-244
      CH16 線上國語字典
    • 1-245
      16.1 專題方向
    • 1-246
      16.2 關鍵技術
    • 1-247
      16.2.1 萌典網站及API
    • 1-248
      16.2.2 JSON 模組分析萌典資料
    • 1-249
      16.2.3 Gradio 模組建立Web App
    • 1-250
      16.3 實戰:建立線上國語字典及Web App
    • 1-251
      16.3.1 建立線上國語字典
    • 1-252
      16.3.2 建立萌典Web App
    • 1-253
      16.3.3 延伸應用
    • 1-254
      版權頁
    • 1-255
      封底頁

    FAQ

    您可以透過手機、平板或是電腦登入 HiSKIO 平台,在【我的學習】>【我的書籍】頁面,選擇想看的電子書。

    Recommendations

    Reviews

    | Collecting

    Sales Plans