在介紹 Data Catalog 連接 Redshift 之前,我們先介紹 Redshift 這個資料庫
Redshift 在 AWS 上的定位是 Data Warehouse 也就是資料倉儲,而 Data Warehouse 與一般的資料庫有什麼不同呢?
- 可以橫向擴展:因為 Redshift 是使用分散式的資料儲存系統,所以可以透過增加 Node 也就是增加節點的方式來擴展儲存量與運算量,而一般的關聯式資料庫,如果要擴展儲存量或是運算量,只能在單台機器上進行縱向擴展,無法以增加機器數量的方式進行擴展。
- 分散式運算與儲存:Redshift 可以進行分散式運算,所以在計算的速度與計算的資料量可以比一般的關聯式資料庫來得更快更多,在儲存方面也是使用分散式的儲存方式,所以在儲存的部分可以達到 PB 等級的儲存量。
- 與ETL 工具的結合:Redshift 可以將 S3 的資料直接讀取並且匯入自己的儲存庫中,也可以對 S3 中的特定檔案格式進行查詢,例如 直接將 S3 與 Redshift 中的資料進行 Join 並將結果回存到 S3 或是 Redshift 本身。
在介紹完 Redshift 的特點後,也來介紹一下 Data Warehouse 與 Data Lake 有什麼不同呢?
- 儲存的資料類型:
• Data Warehouse 專門儲存結構化的資料,當今天資料已經定義好欄位,則可以考慮儲存在 Redshift
• Data Lake 則是儲存半結構化(例如 CSV、JSON 等等)與非結構化的資料(例如 圖片、影片、音檔),而這些資料就可以儲存在S3當中 - 資料內容:
• 在 Data Warehouse 中的資料通常會經過初步經過處理,剔除不必要的資料留下有價值的資訊
• 而 Data Lake 中的資料通常會保持資料剛收集完成的狀態,或是任何待處理的資料,在擁有原始資料的情形下可以在之後進行分析或處理 - 資料的使用情境:
• Data Warehouse 上的資量比較常進行 BI 分析與視覺化分析或製作定期報表
• Data Lake 的資料常用於機器學習或是預測分析
在了解以上這些差異與特點後,在資料儲存的選擇上可以依據這些特點與差異挑選適合的儲存方法
請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!
若您有任何 AWS 需求,歡迎與我們聯繫!