首頁 » 架構師專欄 » 【博弘雲端數據戰情室】Day3 Glue 基本介紹 – Part 2

03/03 2021

AWS 數據解決方案

【博弘雲端數據戰情室】Day3 Glue 基本介紹 – Part 2

上一篇提到了Data Catalog 可彙整不同來源的資料，本篇要來介紹 Glue 的另外兩個主要功能：ETL job 與Workflow。

ETL Job

ETL Job 有三種 ETL 方式可以使用

Python shell

當資料量還不需要分散式運算的計算量時，可以考慮使用 Python shell，Python shell 與 Lambda 相似，可以執行 Python Script 並且沒有計算時間的限制，運算能力最高可以到 4 core 16G RAM，所以在中量或是計算不複雜的情況下 Python shell 也是可以考慮的工具。

Spark

今天資料成長到一定量時就會需要分散式的運算資源支持 ETL 的工作，Spark 是分散式運算中常見的工具，在 ETL Job 上可以使用 PySpark 或 Scala 進行程式開發
Input 的部分可以選擇 Data Catalog 所建立的虛擬 Table 資料，Output 的部分可以選擇S3 或是 Sata Catalog 所連結的 Databace，ETL Job 可以支援多個 Input，例如：訂單資料是CSV儲存在S3，會員資料儲存在 RDS，則透過 Data Catalog的 Table，可以將兩個不同來源的資料進行 Join；Output 的部分也可以同時寫入 S3 和 RDS 或其他資料庫。

Spark streaming

Spark streaming 的 Input 目前只支援 Kinesis 與 Kafka，透過 Spark streaming，可以對 Streaming 資料進行即時分析，目前已有支援 PySpark 與 Scala 的程式開發。

Workflow

當每個 ETL job 之間或與 Data Catalog 之間有執行順序的問題時可以使用 Workflow 設計自動化的工作流程，例如：Data Catalog 需要執行完成後才能執行 ETL job，在 Workflow 上可以設定為 Data Catalog 成功後自動執行 ETL Job，而這個工作流程的啟動方式可以是排程或是 API 啟動。

在 AWS 上 Glue 可以當成資料處理的核心，透過 Glue 可以很方便的整合大部分常見的儲存點，並串接到 ETL Job 進行資料處理，因此加快了抓取資料與回存資料的速度，Glue 也提供順序排程的功能讓自動化的處理流程可以更為方便，簡少在自動化流程設定上的困難度。

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

Previous 【博弘雲端數據戰情室】Day2 Glue 基本介紹 Part 1

Next【AWS數據戰情室】Day4 Glue Data Catalog教學 – Part 1

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。