合購優惠｜RAG x Pipeline

优惠名额有限，售完为止！

包含 2 堂课

US$205.28

US$157.83

内容简介

按一下进入设定

00:00

# 利用爬蟲實現資料收集，善用工具增加作業效率

這堂課將帶你從網頁爬蟲延伸，帶你強化 Python 爬蟲技巧，學會擷取不同資料來源，並使用最熱門的 NoSQL 資料庫儲存及處理數據，再輔以現行最熱門的兩個工具「kafka」、「airflow」來實現「自動化資料流串接」的功能。

# 老師都幫你想好了，在這堂課裡就能找到相對應的解決工具

# 完整學習從資料庫的整合，到數據載入自動化管理工具

1. 最著名、最簡單的 NoSQL 數據庫 MongoDB

｜適用於資料來源多樣、格式不確定、經常調整變動的情境｜

2. 數據讀取一秒鐘幾十萬上下就靠 Kafka

｜用戶行為追蹤、追蹤訂閱、日誌紀錄等場景都能高效處理｜

高吞吐、低延遲：kakfa 最大的特點就是收發消息非常快，每秒可以處理幾十萬條訊息，且只需寫入一次訊息，就可以支援任一應用讀取訊息。
高穩定性、高容錯率：確保資料已經同步到多個副本後才進行 commit，避免當 Producer 或是 Consumer 突然斷線時，資料也隨之遺失的情況。
限流削峰：在瞬間大流量的使用場景下，可以把請求寫入 Kafka 中，避免因為超過負載流量而停止運作。

3. 你的自動化痛點由 Airflow 解決

｜協助監控流程，工作自動排程，維護管理都輕鬆｜

# 數據為王的時代，能將數據工作自動化將讓你的職場角色更穩固