【AWS 數據戰情室】Day 14 Glue ETL Job 教學 – Part 1

接下來我們來介紹 ETL Job，在開始之前我們需要先準備資料源

S3 上的資料準備完成後，再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler (SimpleDataCrawler)，將S3 的路徑由 s3://it.sample.s3/SampleData/order 改為 s3://it.sample.s3/SampleData，完成後執行此 Crawler

執行完成後可以看到 table 中多出了 7 張新的 Table，但會發現其中一張 Table(products) 沒有爬取成功，因為在 589 行的地方出現了 “10”” Bamboo Skewers” 這樣的資料，所以導致 Crawler 無法正常判斷，使用編輯器將 “” 去除，再重新執行一次 Crawler 就可以正常爬取資料，如果發現欄位有異常，可以先刪除 Table 再執行 Crawler

在遇到比較大的資料無法使用編輯器進行處理時，則可以使用 Linux CMD 進行字元替換
sed -i 's//""//g' products.csv
s/：代表執行替換功能
/""：代表要替換的字元 /""
//：代表替換後的字元

而找出錯誤的方式可以使用二分法或是減少資料筆數先讓 Crawler 可以正常運作，這次 troubleshooting 的方式就是先將資料筆數固定在前1000 筆資料，再透過二分法找出有問題的資料欄位。

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

01/06 2023

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

10/06 2021

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

09/29 2021

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

09/22 2021

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

09/15 2021

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

相關文章