Glue Data Catalog

【AWS 數據戰情室】Day 8 Glue Data Catalog 教學 - Part 5

延續昨天的步驟繼續將 Crawler 設定完成

4-6. IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue)

IAM Role

4-7. Schedul 可以設定 Crawler 是否要定期執行,通常這個會用在需要將新的 Partition 更新到 Table 中時所使用,Partition 之後會有比較詳細的說明,這邊我們先選擇 Run on demand

Crawler

4-8. 點選 Add database 創建一個自己的 DB 這樣資料比較不會混亂,Prefix added to table 的內容會添加到之後創建出來的 Table Name 前面,Table Name 則會是 S3 的資料夾名稱,Prefix added to table 在這邊先維持空白就好,最後點選 Next 後再點選最下面的 Finish 就完成了

S3 data

4-9. 回到 Crawlers 的頁面,勾選剛剛創建的 SimpleDataCrawler,再點選 Run crawler,當 Crawler 執行完成時,可以看到 Tables added 的欄位變成 1

Glue

4-10. 回到 Tables 的頁面可以看到 Crawler 所產生的 Table,勾選 order 這個 Table,並點選 Action 中的 View data,接下來要使用 Athena 進行查詢

資料分析
  1. Athena 查詢教學
    5-1. 進到 Athena 後有可能無法查詢,會看到以下這個畫面,或是點選右上角的 Setting 進到這個頁面,請先回到 S3 創建一個 Bucket(可以參考步驟 2-1) 讓 Athena 可以存放查詢結果,再填入 S3 路徑時最後一個斜線(/)記得要補上不然無法設定成功

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!