Job 的基礎設定完成後,接下來要設定資料源與輸出目標
- 這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下
4. 這個步驟我們選預設的 Change schema
5. 這個步驟就要選擇要寫入的目標,這邊請先選擇 Create tables in your data target,之後可以看到另一個設定頁面
- Data store:這邊可以選擇 S3 與 JDBC,JDBC 可以連結 Redshift、RDS、DynamoDB、etc 的資料庫,但這次我們先選擇 S3
- Format:資料儲存的格式選擇 CSV
- Compression type:檔案壓縮的部分先不進行壓縮
- Target path:這部分可以填入要寫入的 S3 路徑,記得要與資料源的資料夾分開
- 欄位設定,這部分可以使用圖形化介面的方式設定儲存的欄位資訊,可以調整欄位順序、欄位的資料類型、增減欄位
- 設定完成後 Glue 會產生出基本的 PySpark 程式碼,這個程式碼可以直接將資料從資料源按照所設定的內容搬遷到 S3 或是以 JDBC 連線的資料庫中
請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!
若您有任何 AWS 需求,歡迎與我們聯繫!