首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 12 Glue Partition 教學 – Part 2

04/19 2021

【AWS 數據戰情室】Day 12 Glue Partition 教學 – Part 2

在 S3 上 Partition 是透過資料夾階層來規劃，假設我使用年與月當作 Partition 則S3的資料夾規劃可以參考下圖，有2020一月與二月的資料階層

testdata 我是使用 order.csv 平均拆成兩份來模擬兩個月的訂單資料，order.csv 下載點

S3 上的資料匯入完成後，再透過 Glue data Catalog 創建虛擬 Table，供 Athena 查詢使用，這部分可參考 Day 5 的做法，需要注意的是 S3 路徑要如下，選擇年再上一層的資料夾

執行 Run crawler 之後可以看到虛擬 Table 中有多了兩個 Partition 的欄位，這些欄位中的值會與 S3 中的資料夾名稱相同，如下圖所示

再來我們可以使用 Athena 查詢看看
假設今天我要找出二月的所有訂單，如下圖，可以看到我的查詢量是 52.84MB，而全部訂單的資料大小為 109MB

所以透過 Partition 可以很方便的限制 Athena 所要查詢的範圍，讓 Athena 可以不需要去過濾其他 Partition 的資料，藉此提高效率並降低查詢成本。

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

01/06 2023

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

10/06 2021

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

09/29 2021

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

09/22 2021

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

09/15 2021

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

相關文章