07/28 2021

【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1

AWS Glue ETL Job 教學 -workflows

講完 Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,而今天就要來介紹如何創建 Glue 的自動化流程

假設我們的資料源是以天為單位的方式存入S3,如下所示,則會有 Partition 更新的需求,每一天都是一個 Partition,所以在執行 ETL Job 之前需要先執行一次 Data Catalog 來更新新的 Partition 資料,這樣 ETL Job 才能看到最新的資料

AWS Glue ETL Job 教學 -workflows

所以我們的目標是在執行完成 Data Catalog 後在執行 ETL Job

1.首先我們到 Glue Workflows 創建一個新的 Workflow

AWS Glue ETL Job 教學 -workflows

2.輸入 Workflow 的名稱後就可以直接點選 Add workflow

3.點選剛剛創建完成的 Workflow,在點擊 Target

AWS Glue ETL Job 教學 -workflows

4.Trigger 的部分我們選擇 Add new,Trigger 選擇 On demand 我們先使用手動的方式啟動這一個資料處理流程

AWS Glue ETL Job 教學 -workflows

5.接下來我們新增要執行的 Crawler

AWS Glue ETL Job 教學 -workflows

6.我們選擇 Day 7 所創建的 Crawler

AWS Glue ETL Job 教學 -workflows

7.添加新的 Trigger

AWS Glue ETL Job 教學 -workflows

8.這個 Trigger 會在 Crawler 執行成功後啟動 ETL Job

AWS Glue ETL Job 教學 -workflows

9.接下來新增 ETL Job

AWS Glue ETL Job 教學 -workflows

10.ETL Job 選擇我們在 Day 15 創建的 Job

AWS Glue ETL Job 教學 -workflows

11.這樣一個簡單的處理流程就設定完成了,接下來我們直接執行看看,點選 Action 中的 Run 就可以開始執行這個流程

AWS Glue ETL Job 教學 -workflows

12.執行完成後可以到 S3 查看是否有正常產生出單一 User 喜歡購買的前五名商品清單

AWS Glue ETL Job 教學 -workflows

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!