首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 19 Glue ETL Job 教學-Python Shell-Part 1

07/07 2021

AWS 數據解決方案

【AWS 數據戰情室】Day 19 Glue ETL Job 教學-Python Shell-Part 1

在 Glue ETL Job 中除了 Spark 可以使用之外，還可以使用 Python Shell 進行 ETL 的處理，Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用，接下來會透過 Python Shell 的方式計算出每個 User 購買前五多的商品。

1. 資料源一樣使用 Day 14 所創建好的資料源

2. 創建要 import 的 Library 設定檔，Python Shell 需要使用 .egg 或 .whl 安裝所需要的 Library，首先創建一個資料夾並在裡面產生 setup.py，內容如下：

3. 創建完成後執行 python3 setup.py bdist_egg，執行完成後你會發現多出了三個資料夾(build、dist、python_shell_s3fs.egg-info)，請將 dist 中的 python_shell_s3fs-0.1-py3.6.egg 上傳到 S3 備用，我將它放在 s3://it.sample.s3/lib/python_shell_s3fs-0.1-py3.6.egg

4. 創建 Glue Job

5. 設定 Python Shell， IAM role 我們一樣使用 Day 10 創建的 Role(ITGlue)。

＊Type：Type 的部分這次我們選 Python Shell
＊Python version：Python 版本我們選 Python3
＊This job runs：這部分我們選 A new script to be authored by you，代表我們要創建一個新的 Python Shell 而不是使用既有的程式碼

再往下看到 Security configuration, script libraries, and job parameters (optional) 的部分
＊Python library path：這邊填入剛剛上傳到 S3 的 .egg 檔路徑(s3://it.sample.s3/lib/python_shell_s3fs-0.1-py3.6.egg)
＊Maximum capacity：使用的運算規格我們直接調到最大 1

以上設定完成就可以點選下一步

6. Connections 的的部分保持預設，接著點選 Save job edit script

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

Previous 【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

Next【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。