【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

AWS Glue ETL Job設定

本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。

【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4

AWS Glue ETL Job

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商品,這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。

【AWS 數據戰情室】Day 14 Glue ETL Job 教學 – Part 1

S3資料源準備

接下來我們來介紹 Glue ETL Job,在開始之前我們需要先準備 資料源 。這次我們一樣使用 Kaggle 的資料,將資料放入 S3。S3 上的資料準備完成後,再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler 。