03/17 2021

【AWS數據戰情室】Day 7 Glue Data Catalog 教學 – Part 4

Glue Data Catalog

上一篇完成前置步驟後,Glue Data Catalog 教學就進入到創建 Crawler 啦!

  1. 創建 Crawler
    4-1 切換到 Crawlers 頁面,點選 Add crawlers
AWS Glue

4-2. 點開 Crawler name 下面的選單,點選 Custom classifiers 裡剛剛創建的 Classifier 右邊的 Add,將他加入右邊的 Selected classifiers,代表要使用這個 Classifier 爬取資料

Crawler

4-3. 選擇要使用的資料來源,這邊我們選擇 Data stores,也就是外部的資料源

crawler

4-4. 填入剛剛上傳 order.csv 的 S3 資料夾路徑,建議可以點選旁邊的資料夾圖示,用圖形化介面的方式選擇 S3 路徑,除了比較方便也可以避免使用到其他 Region 的 S3 造成資料無法訪問

另外要記得選擇資料所在的資料夾,不能直接選擇 CSV 檔,如果直接選擇 CSV 檔 Crawler 會無法正常爬取資料

最下面的 Exclude patterns 可以排除選定的路徑下所不要的資料或資料夾,例如 在您的資料中會有不需要爬取的資料夾 testdir,那我們可以在 Exclude patterns 中設定 testdir/**,這樣 Crawler 就不會去處理 testdir 中的資料

4-5. 這邊我們先選擇 No 繼續往下走,如果需要使用多個資料源可以選擇 Yes

data store

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!