06/16 2021

【AWS 數據戰情室】Day 16 Glue ETL Job 教學 – Part 3

AWS數據分析 glue etl job

Job 的基礎設定完成後,接下來要設定資料源與輸出目標

  1. 這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下
Glue Data Catalog 選擇資料源

     4. 這個步驟我們選預設的 Change schema

選預設的 Change schema

    5. 這個步驟就要選擇要寫入的目標,這邊請先選擇 Create tables in your data target,之後可以看到另一個設定頁面

  • Data store:這邊可以選擇 S3 與 JDBC,JDBC 可以連結 Redshift、RDS、DynamoDB、etc 的資料庫,但這次我們先選擇 S3
  • Format:資料儲存的格式選擇 CSV
  • Compression type:檔案壓縮的部分先不進行壓縮
  • Target path:這部分可以填入要寫入的 S3 路徑,記得要與資料源的資料夾分開
選擇 Create tables in your data target
  1. 欄位設定,這部分可以使用圖形化介面的方式設定儲存的欄位資訊,可以調整欄位順序、欄位的資料類型、增減欄位
Glue Data Catalog欄位設定
  1. 設定完成後 Glue 會產生出基本的 PySpark 程式碼,這個程式碼可以直接將資料從資料源按照所設定的內容搬遷到 S3 或是以 JDBC 連線的資料庫中

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!