講完 Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,而今天就要來介紹如何創建 Glue 的自動化流程
假設我們的資料源是以天為單位的方式存入S3,如下所示,則會有 Partition 更新的需求,每一天都是一個 Partition,所以在執行 ETL Job 之前需要先執行一次 Data Catalog 來更新新的 Partition 資料,這樣 ETL Job 才能看到最新的資料
所以我們的目標是在執行完成 Data Catalog 後在執行 ETL Job
1.首先我們到 Glue Workflows 創建一個新的 Workflow
2.輸入 Workflow 的名稱後就可以直接點選 Add workflow
3.點選剛剛創建完成的 Workflow,在點擊 Target
4.Trigger 的部分我們選擇 Add new,Trigger 選擇 On demand 我們先使用手動的方式啟動這一個資料處理流程
5.接下來我們新增要執行的 Crawler
6.我們選擇 Day 7 所創建的 Crawler
7.添加新的 Trigger
8.這個 Trigger 會在 Crawler 執行成功後啟動 ETL Job
9.接下來新增 ETL Job
10.ETL Job 選擇我們在 Day 15 創建的 Job
11.這樣一個簡單的處理流程就設定完成了,接下來我們直接執行看看,點選 Action 中的 Run 就可以開始執行這個流程
12.執行完成後可以到 S3 查看是否有正常產生出單一 User 喜歡購買的前五名商品清單
請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!
若您有任何 AWS 需求,歡迎與我們聯繫!