Contact Us

首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1

09/08 2021

AWS 數據解決方案

【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1

同步 S3 資料到 Redshift

之前在Glue 上進行資料存取時都是使用 S3，而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。

1.首先我們先準備資料，這次我是使用 Day 17 的運算結果，每個 User 最喜歡的前五名商品清單，我將它放到新的 S3 路徑下，並且將他切成三等份每一份大約 30 萬筆資料，因為這次要模擬每天都有新的資料新增到 s3 並且要同步到 Redshift，所以第一天的資料路徑為 s3://it.sample.s3/toRedshiftFile/20201001/top5-1.csv

2.創建新的 Crawler(top5-crawler)，詳細創建方法可以參考 Day 7，這裡會列出不同需要調整的步驟， Crawler 第三步驟的 Include path 需要修改為 s3://it.sample.s3/toRedshiftFile

同步 S3 資料到 Redshift

3. 創建新的 ETL Job(it-to-redshift)，詳細流程可以參考 Day 15，這裡也會列出不同且需要調整的步驟
＊第一步驟的 Adavanced properties 中的 Job bookmark 需要調整為 Enable

同步 S3 資料到 Redshift

4.Data Source 的部分要選擇今天 Crawler 所創建的 Table

同步 S3 資料到 Redshift

5.Data target 要選擇 Day 25 所創建的 Redshift 連接

同步 S3 資料到 Redshift

6.之後就可以直接創建 Script，在 Script 中我會修改倒數第二行的 Redshift Table Name 為 top5

同步 S3 資料到 Redshift

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

Previous 【AWS 數據戰情室】Day 25 透過 Data Catalog 連接 Redshift

Next【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

Read More

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

Read More

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

Read More

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

Read More

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

Read More

You are using an outdated browser. Please upgrade your browser to improve your experience and security.

您正在使用 版本過舊 的瀏覽器。請更新您的瀏覽器以改善您的使用體驗及安全性。