03/11 2021

【AWS數據戰情室】Day6 Glue Data Catalog 教學 – Part 3

Crawlers

了解 Classifiers 後,要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取

Crawlers 的部分會以一個小範例進行說明,首先我們要到 Kaggle 取得範例資料,資料內容為零售業的歷史訂單資料

這次我們先以處理 orders.csv 這個資料為目標,並且可以對他進行查詢
架構如下,資料儲存在 S3 再透過 Data Catalog 對 S3 上的資料進行爬取與解析,解析完成後再透過 Athena 使用 SQL 的查詢語法對資料進行分析

AWS S3
  1. 創建 IAM Role
    1-1. 首先創建 Glue 所使用的 IAM Role,到 IAM 的管理頁面點選 Create role

         1-2. 選擇要使用 Role 的服務 Glue

         1-3. 給予 Role 所需的 Policy,AmazonS3FullAccess、AWSGlueServiceRole,除了 Glue 本身的權限之外,因為資料是儲存在 S3 當中所以還要給予 S3 的權限,讓 Glue 可以存取所需的資料

         1-4. Tag 的部分可以先跳過

        1-5. 最後幫 Role 取一個好名子就完成了

  1. 創建 S3
    2-1. 在創建 S3 時須注意所指定的 Region 要與 Glue 的 Region 相同,這樣 Glue 才能正常讀取 S3 中的資料

       2-2. 請依照以下階層創建資料夾並放入剛剛從 Kaggle 下載的 orders.csv

  1. 創建所需的 Classifiers

order.csv 是 CSV 檔,而他的主要分隔符號是使用逗號,次要分而符號沒有使用到但我們還是先選則雙引號做為次要分隔符號,欄位名稱的部分因為資料中已有,所以 Column headings 可以選擇 Detect headings 或是 Has headings,其他部分則是使用默認設定即可

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!