【AWS數據戰情室】Day1 資料處理的相關服務

AWS 上有需多數據處理與分析的服務，常見的如 Glue、Athena、Redshift 等，我們將介紹如何在 AWS 上進行數據處理與分析，以及使用時常見問題與相對解決方法，最後透過實作範例，降低大家在 AWS 數據處理與分析的門檻。第一天，先來介紹 AWS 上常見的資料處理服務有哪些，以及在什麼情況下適合使用。

常見AWS資料處理服務：

1. Lambda
如果資料處理的流程非常簡單，建議使用 Lambda，這項服務可以讓您用熟悉的語言進行開發，減少開發時間。

2. Glue
當您今天需要分散式的 ETL 運算，或是長時間的程式運算處理，例如 Lambda 的計算量不夠或是計算時間無法在 15 分鐘內完成時，可以考慮 Glue 的 ETL 服務。

3. Athena
當您今天想要透過 SQL 語法進行資料分析時，可以使用 Athena。 Athena 非常適合想要快速分析一份資料或是快速產生一份 Report ，又不想透過程式進行時使用。

4. Redshift
當今天資料量與筆數非常龐大或是 SQL 的計算比較複雜，則比較適合使用 Redshift，Redshift 的 SQL 查詢有進行優化，可以查詢 TB 甚至是 PB 級的資料量，也因為分散式的架構可讓您快速地查詢出所需要的資料結果。

資料處理流程：

初步了解可用的 AWS 服務後，接下來就要建構資料處理的流程，假設每五分鐘有一個的 log 檔存入 S3，那可能需要在每個 log 檔產生時，透過 S3 event 呼叫 Lambda 進行初步的資料清洗，或是透過 Glue 定時對前一天的所有 log 檔進行資料清洗。

而清洗方式會根據之後的分析應用而有所不同，如果已經確定分析時所產生的報表內容，那可以在資料清洗時只留下報表所需的資訊，加快報表產生的速度；如果還在資料探索階段，則可以只將不正確或不完整的資料去除，留下完整的原始資料。

清洗完成後，再透過 Athena 或 Redshift 進行分析，產出所需的報表，若分析量較大時，可以使用 Redshift；分析量較小，或只需要分析部分資料時，則可以選用 Athena。

在資料處理的流程中，您可以依照不同情境與需求選擇服務，透過最適合的服務，讓您更快地達到所需要的目的，並且平衡所需要的成本。

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

Previous AWS帳務服務需求交給博弘! 助企業免去惱人的境外稅

Next【博弘雲端數據戰情室】Day2 Glue 基本介紹 Part 1

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。