aws Glue Workflows

【AWS 數據戰情室】Day 22 Glue Workflows 教學 - Part 2

今天要來補充一下昨天的小細節,昨天有介紹完 Workflow 的使用方式,可以正常產生出每個User購買最多的前五名商品,但如果是使用昨天的 S3 資料階層來當資料源時(如下),因為我們加入了年月日也就是 Partition,所以 Data Catalog 需要修改部分設定才能正常工作。

aws Glue Workflows設定

接下來我們來說明 Data Catalog 需要如何修改

  1. 在 Crawler 中 S3 的路徑需使用 s3://it.sample.s3/SampleData 才能正常產生出多張 Table
aws Glue Workflows設定

2. 在執行此 Crawler 前需先到 Table 刪除已存在的 Table,這樣 S3 上的 Partition 才能正常產生在 Table 中(年月日的部分)

aws Glue Workflows設定

3. 執行成功後可以看到 Table 中多出了三個 Partition 欄位,這樣一來我們就可以依照年月日的方式切分資料,Workflow 也可以在上傳完成資料源後透過 API 觸發,進行更新 Partition 的工作,在透過 ETL Job 製作出相對應的 Report

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!