02/02 2021

【博弘雲端數據戰情室】Day2 Glue 基本介紹 Part 1

AWS glue基本介紹 part1

常見的 AWS 資料處理服務之一「AWS Glue」 為全託管的 SaaS 服務,使用者可以不用管理 VM,並且不需要手動設置 Cluster。

就連 VM 所需的運算環境 AWS 也都幫使用者準備好,用戶不需管理基礎設施,AWS Glue 會佈建、設定和擴展執行資料整合任務所需的資源,因此可以節省部屬環境的時間,讓使用者只需專注在資料處理流程的規劃與程式開發!今天將先為您介紹 AWS Glue 的 Data Catalog 功能。

AWS Glue 主要功能

1. Data Catalog

Data Catalog 可以依據 S3 上半結構化的資料 (CSV、Json、XML、Parquet…etc) 建立虛擬 Table。

例如:S3 上有一批 CSV 的檔案,Catalog 可以依照 CSV 的內容產出類似關聯式資料庫的 Table ,並且賦予欄位名稱。Table 與欄位資料會儲存在 Data Catalog 中,而 Table 中的資料則儲存在 S3 中,當 ETL 工具存取 Table 時,會依據 Table 中的資訊與參數,爬取 S3 中的 CSV 檔。

此外,Data Catalog 也可以直接連接現有的 Database,目前支援:Amazon RDS、Amazon Redshift、Amazon DocumentDB、MongoDB,以及有支援 JDBC 的 Database,連接後同樣會建立虛擬 Table 供 ETL 工具存取。

下次我們將針對 AWS Glue 另外兩項功能「ETL Job」以及「Workflow」進行介紹,敬請期待!

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!