首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

09/15 2021

AWS 數據解決方案

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料

1. 修改完 ETL Job 的 Script 後就可以直接執行此 Job

2. 執行完成後可以到 Redshift 的 Query editor 進行驗證，在右邊的查詢欄中輸入 select count(*) from top5 計算資料的總筆數，計算出來的筆數是 329999

3. 接下來我們到 Data Catalog 的 Table 使用 Athena 進行確認，這邊是直接查詢 S3 上的資料筆數，所以所以只要資料筆數與 Redshift 中相等，就可以表示資料寫入是正確的

4. 在 Athena 中輸入 SELECT count(*) FROM “it_db”.”toredshiftfile” 進行查詢

5. 在來我們要驗證如果是第二天的資料同步到 Redshift 後是否會產生重複的資料，將第二天的資料放入 s3://it.sample.s3/toRedshiftFile/20201002/top5-2.csv 代表第二天的資料，接著運行 Crawler(top5-crawler)，Crawler 運行成功後直接運行 ETL Job(it-to-redshift)

6. ETL Job(it-to-redshift) 運行完成後我們一樣到 Redshift 計算資料筆數，總筆數為 709999，如果總筆數為 1039998 那表示 ETL Job 的 Job bookmark 沒有設為 Enable，可以參考 Day 26 的教學

7. 透過 Athena 進行確認真實筆數，總筆數為 709999，所以代表 Redshift 上的資料筆數與 S3 中的資料筆數是相同的

8. 第三天的資料就留給各位自行操作，重複步驟 4~7 即可

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

Previous 【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1

Next【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

AWS 數據解決方案

09/08 2021

【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1

之前在 Glue 上進行資料存取時都是使用 S3 ，而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。這次是使用 Day 17 的運算結果，每個 User 最喜歡的前五名商品清單，將它放到新的 S3 路徑下，並且將他切成三等份每一份大約 30 萬筆資料。