【AWS 數據戰情室】Day 23 Redshift 簡介

在介紹 Data Catalog 連接 Redshift 之前，我們先介紹 Redshift 這個資料庫

Redshift 在 AWS 上的定位是 Data Warehouse 也就是資料倉儲，而 Data Warehouse 與一般的資料庫有什麼不同呢？

可以橫向擴展：因為 Redshift 是使用分散式的資料儲存系統，所以可以透過增加 Node 也就是增加節點的方式來擴展儲存量與運算量，而一般的關聯式資料庫，如果要擴展儲存量或是運算量，只能在單台機器上進行縱向擴展，無法以增加機器數量的方式進行擴展。
分散式運算與儲存：Redshift 可以進行分散式運算，所以在計算的速度與計算的資料量可以比一般的關聯式資料庫來得更快更多，在儲存方面也是使用分散式的儲存方式，所以在儲存的部分可以達到 PB 等級的儲存量。
與ETL 工具的結合：Redshift 可以將 S3 的資料直接讀取並且匯入自己的儲存庫中，也可以對 S3 中的特定檔案格式進行查詢，例如直接將 S3 與 Redshift 中的資料進行 Join 並將結果回存到 S3 或是 Redshift 本身。

在介紹完 Redshift 的特點後，也來介紹一下 Data Warehouse 與 Data Lake 有什麼不同呢？

儲存的資料類型：
• Data Warehouse 專門儲存結構化的資料，當今天資料已經定義好欄位，則可以考慮儲存在 Redshift
• Data Lake 則是儲存半結構化(例如 CSV、JSON 等等)與非結構化的資料(例如圖片、影片、音檔)，而這些資料就可以儲存在S3當中
資料內容：
• 在 Data Warehouse 中的資料通常會經過初步經過處理，剔除不必要的資料留下有價值的資訊
• 而 Data Lake 中的資料通常會保持資料剛收集完成的狀態，或是任何待處理的資料，在擁有原始資料的情形下可以在之後進行分析或處理
資料的使用情境：
• Data Warehouse 上的資量比較常進行 BI 分析與視覺化分析或製作定期報表
• Data Lake 的資料常用於機器學習或是預測分析

在了解以上這些差異與特點後，在資料儲存的選擇上可以依據這些特點與差異挑選適合的儲存方法

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

01/06 2023

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

10/06 2021

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

09/29 2021

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

09/22 2021

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

09/15 2021

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

相關文章