【AWS 數據戰情室】Day 30 QuickSight 功能介紹

QuickSight 功能介紹

在資料源設定完成後,接下來介紹如何繪製圖表,以資料源是每個 User 購買數量為例,來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位,自訂自己的運算式,創建符合自己需求的圖表。

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 連接 Redshift

QuickSight 是 AWS 的 BI工具 ,QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3,在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表,透過 UI 的方式可以更快速的進行分析。

【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1

同步 S3 資料到 Redshift

之前在 Glue 上進行資料存取時都是使用 S3 ,而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。這次是使用 Day 17 的運算結果,每個 User 最喜歡的前五名商品清單,將它放到新的 S3 路徑下,並且將他切成三等份每一份大約 30 萬筆資料。

【AWS 數據戰情室】Day 24 Redshift 教學

AWS Redshift教學

在介紹完 Amazon Redshift 後,我們直接來創建一個 Redshift。首先在創建 Redshift 前,需要先創建 cluster subnet group,其代表等等創建的 Redshift 要開在哪一個 VPC以及哪個 Subnet 上。

【AWS 數據戰情室】Day 23 Redshift 簡介

AWS Glue ETL Job Redshift簡介

在介紹 Data Catalog 連接 Redshift 之前,我們先介紹 Redshift 這個資料庫。Redshift 在 AWS 上的定位是 Data Warehouse 也就是資料倉儲,而 Data Warehouse 與一般的資料庫有什麼不同呢?馬上來看詳細說明。

【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

AWS Glue ETL Job設定

本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。

【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4

AWS Glue ETL Job

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商品,這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。

【AWS 數據戰情室】Day11 Glue Partition 教學 – Part 1

儲存 大量資料時,影響查詢速度怎麼辦?本篇要介紹會使用到的資料切分方式 Partition 。當資料量小時在查詢的速度上不會有感覺,但今天資料量以機累積了一年兩年五年時,資料的大小與資料筆數就會很大的影響查詢度,所以 Partition 在 數據分析 中非常重要

【AWS 數據戰情室】Day10 Glue Data Catelog 教學 – Part 7

Classification

在上一篇講解完整的流程後,我們再回來說明 Table 的資訊與可調整的部分Table 說明:6-1. 點選創建成功的 Table Name,接著在6-2. 可以看到這個 Table 的詳細資訊, Classification 是哪一個類型的資料,原始資料所在的 AWS S3 路徑

【AWS數據戰情室】Day9 Glue Data Catalog 教學 – Part 6

AWS數據分析

上一篇說明使用 Athena 前需要執行的設定,本篇要接著使用 Athena 進行查詢,5-2. 設定完成後,就可以開始查詢 order.csv 裡的資料,Athena 是使用標準 SQL 進行查詢,所以如果會使用 SQL 操作 資料庫 ,再來是用 Athena 進行查詢分析幾乎是

【AWS數據戰情室】Day8 Glue Data Catalog 教學 – Part 5

Glue Data Catalog

延續昨天的步驟繼續將 Crawler 設定完成:IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue),Schedul 可以設定 Crawler 是否要定期執行,通常這個會用在需要將新的 Partition 更新到 Table 中時所使用