首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2

07/21 2021

【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2

設定完成後可以開始撰寫所需的 ETL 程式

7. 設定完 Python Shell 後可以看到一個空白的編輯器，這裡我們可以自行撰寫所需的 ETL 程式，接下來會介紹如何使用 pandas 進行資料處理，產生出每個user 最喜歡購買的前五項商品清單。

接下來會簡單介紹所使用的程式碼

Import 所需要的 Library，這邊沒有 import 昨天所設定的 s3fs 是因為 s3fs 是透過 pandas 進行呼叫，所以 import 的部分會由 pandas 處理

透過 pandas 將三個資料源進行 Join，pandas 的 join 是使用 merge 這個 Function，裡面的第一與第二個參數，代表要 Join 的 Table，第三個參數 on 代表要 Join 的欄位，最後一個參數 how 代表要 Join 的方式

針對 user_id 與 frequency_count 兩個欄位進行排序，並且 user_id 使用升冪排序，frequency_count 使用降冪排序，排序方式則是透過 ascending 這個參數決定，True 代表升冪；False 代表降冪

新增一個排名欄位 sort_id，這個欄位會以 user_id 為基準進行降冪排名，升降冪排名是透過 ascending 參數進行控制，True 代表升冪；False 代表降冪

完整程式碼

程式碼可以直接使用，但 read_csv 與 to_csv 的 S3 路徑需適當修改

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

01/06 2023

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

10/06 2021

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

09/29 2021

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

09/22 2021

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

09/15 2021

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

相關文章