【博弘雲端數據戰情室】Day2 Glue 基本介紹 Part 1

常見的 AWS 資料處理服務之一「AWS Glue」為全託管的 SaaS 服務，使用者可以不用管理 VM，並且不需要手動設置 Cluster。

就連 VM 所需的運算環境 AWS 也都幫使用者準備好，用戶不需管理基礎設施，AWS Glue 會佈建、設定和擴展執行資料整合任務所需的資源，因此可以節省部屬環境的時間，讓使用者只需專注在資料處理流程的規劃與程式開發！今天將先為您介紹 AWS Glue 的 Data Catalog 功能。

AWS Glue 主要功能

1. Data Catalog

Data Catalog 可以依據 S3 上半結構化的資料 (CSV、Json、XML、Parquet…etc) 建立虛擬 Table。

例如：S3 上有一批 CSV 的檔案，Catalog 可以依照 CSV 的內容產出類似關聯式資料庫的 Table ，並且賦予欄位名稱。Table 與欄位資料會儲存在 Data Catalog 中，而 Table 中的資料則儲存在 S3 中，當 ETL 工具存取 Table 時，會依據 Table 中的資訊與參數，爬取 S3 中的 CSV 檔。

此外，Data Catalog 也可以直接連接現有的 Database，目前支援：Amazon RDS、Amazon Redshift、Amazon DocumentDB、MongoDB，以及有支援 JDBC 的 Database，連接後同樣會建立虛擬 Table 供 ETL 工具存取。

下次我們將針對 AWS Glue 另外兩項功能「ETL Job」以及「Workflow」進行介紹，敬請期待！

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

Previous 【AWS數據戰情室】Day1 資料處理的相關服務

Next【博弘雲端數據戰情室】Day3 Glue 基本介紹 – Part 2

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。