首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1

07/28 2021

AWS 數據解決方案

【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1

講完 Data Catalog 與 ETL Job 後，在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利，而今天就要來介紹如何創建 Glue 的自動化流程

假設我們的資料源是以天為單位的方式存入S3，如下所示，則會有 Partition 更新的需求，每一天都是一個 Partition，所以在執行 ETL Job 之前需要先執行一次 Data Catalog 來更新新的 Partition 資料，這樣 ETL Job 才能看到最新的資料

所以我們的目標是在執行完成 Data Catalog 後在執行 ETL Job

1.首先我們到 Glue Workflows 創建一個新的 Workflow

2.輸入 Workflow 的名稱後就可以直接點選 Add workflow

3.點選剛剛創建完成的 Workflow，在點擊 Target

4.Trigger 的部分我們選擇 Add new，Trigger 選擇 On demand 我們先使用手動的方式啟動這一個資料處理流程

5.接下來我們新增要執行的 Crawler

6.我們選擇 Day 7 所創建的 Crawler

7.添加新的 Trigger

8.這個 Trigger 會在 Crawler 執行成功後啟動 ETL Job

9.接下來新增 ETL Job

10.ETL Job 選擇我們在 Day 15 創建的 Job

11.這樣一個簡單的處理流程就設定完成了，接下來我們直接執行看看，點選 Action 中的 Run 就可以開始執行這個流程

12.執行完成後可以到 S3 查看是否有正常產生出單一 User 喜歡購買的前五名商品清單

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

Previous 【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2

Next【AWS 數據戰情室】Day 22 Glue Workflows 教學 – Part 2

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。