首頁 » 架構師專欄 » 【AWS數據戰情室】Day6 Glue Data Catalog 教學 – Part 3

03/11 2021

【AWS數據戰情室】Day6 Glue Data Catalog 教學 – Part 3

了解 Classifiers 後，要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取

Crawlers 的部分會以一個小範例進行說明，首先我們要到 Kaggle 取得範例資料，資料內容為零售業的歷史訂單資料

這次我們先以處理 orders.csv 這個資料為目標，並且可以對他進行查詢
架構如下，資料儲存在 S3 再透過 Data Catalog 對 S3 上的資料進行爬取與解析，解析完成後再透過 Athena 使用 SQL 的查詢語法對資料進行分析

1-2. 選擇要使用 Role 的服務 Glue

1-3. 給予 Role 所需的 Policy，AmazonS3FullAccess、AWSGlueServiceRole，除了 Glue 本身的權限之外，因為資料是儲存在 S3 當中所以還要給予 S3 的權限，讓 Glue 可以存取所需的資料

1-4. Tag 的部分可以先跳過

1-5. 最後幫 Role 取一個好名子就完成了

2-2. 請依照以下階層創建資料夾並放入剛剛從 Kaggle 下載的 orders.csv

order.csv 是 CSV 檔，而他的主要分隔符號是使用逗號，次要分而符號沒有使用到但我們還是先選則雙引號做為次要分隔符號，欄位名稱的部分因為資料中已有，所以 Column headings 可以選擇 Detect headings 或是 Has headings，其他部分則是使用默認設定即可

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

01/06 2023

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

10/06 2021

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

09/29 2021

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

09/22 2021

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

09/15 2021

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

相關文章