進擊的資料爬蟲,從各種資料來源到打造自動化 Data Pipeline,一門課掌握資料工程師必備核心技術!
了解資料工程師的核心技能地圖,掌握正確的前進方向
學會進階爬蟲技術,利用 Python 程式收集不同形式來源的資料
一門課學會三個業界主流工具,順利與市場接軌
能將多個來源的非結構化資料,整併到 MongoDB 資料庫
導入 Kafka 工具並實作串接 Streaming API,學會高效管理資料流收集
按一下 进入设定
# 利用爬蟲實現資料收集,善用工具增加作業效率
這堂課將帶你從網頁爬蟲延伸,帶你強化 Python 爬蟲技巧,學會擷取不同資料來源,並使用最熱門的 NoSQL 資料庫儲存及處理數據,再輔以現行最熱門的兩個工具「kafka」、「airflow」來實現「自動化資料流串接」的功能。
# 老師都幫你想好了,在這堂課裡就能找到相對應的解決工具
# 完整學習從資料庫的整合,到數據載入自動化管理工具
1. 最著名、最簡單的 NoSQL 數據庫 MongoDB
|適用於資料來源多樣、格式不確定、經常調整變動的情境|
2. 數據讀取一秒鐘幾十萬上下就靠 Kafka
|用戶行為追蹤、追蹤訂閱、日誌紀錄等場景都能高效處理|
3. 你的自動化痛點由 Airflow 解決
|協助監控流程,工作自動排程,維護管理都輕鬆|
# 數據為王的時代,能將數據工作自動化將讓你的職場角色更穩固
如果您購買的是募資課程,請在課程的【簡介】中查看開課時間,募資課程將於開課時間所述日期開放同學上課。
若您購買的是一般課程(開放上課課程),則在購買完成後可以立即開始觀看。
所有線上課程皆不受時間限制,享無限次永久觀看!
嗨,你好
我是這一堂課的講師維元,這堂課會串接許多第三方來源的資料搭配主流的工具建立 data pipeline 可以輕鬆完成你想要的「自動化排程」。
期待你一起加入這一堂課:)