【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 連接 Redshift

QuickSight 是 AWS 的 BI工具 ,QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3,在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表,透過 UI 的方式可以更快速的進行分析。

【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1

同步 S3 資料到 Redshift

之前在 Glue 上進行資料存取時都是使用 S3 ,而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。這次是使用 Day 17 的運算結果,每個 User 最喜歡的前五名商品清單,將它放到新的 S3 路徑下,並且將他切成三等份每一份大約 30 萬筆資料。

【AWS 數據戰情室】Day 24 Redshift 教學

AWS Redshift教學

在介紹完 Amazon Redshift 後,我們直接來創建一個 Redshift。首先在創建 Redshift 前,需要先創建 cluster subnet group,其代表等等創建的 Redshift 要開在哪一個 VPC以及哪個 Subnet 上。

【AWS 數據戰情室】Day 23 Redshift 簡介

AWS Glue ETL Job Redshift簡介

在介紹 Data Catalog 連接 Redshift 之前,我們先介紹 Redshift 這個資料庫。Redshift 在 AWS 上的定位是 Data Warehouse 也就是資料倉儲,而 Data Warehouse 與一般的資料庫有什麼不同呢?馬上來看詳細說明。

【AWS 數據戰情室】Day 22 Glue Workflows 教學 – Part 2

aws Glue Workflows

本篇補充創建 Glue 的自動化流程 Workflows 的小細節,上次介紹完 Workflow 的使用方式,可以正常產生出每個User購買最多的前五名商品,但如果是使用昨天的 S3 資料階層來當資料源時,Data Catalog 需要修改部分設定才能正常工作。

【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1

AWS Glue ETL Job 教學 -workflows

講完 AWS Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,資料若是以天為單位的方式存入S3,則會有 Partition 更新的需求,今天就要來介紹如何創建 Glue 的自動化流程 Workflows 。

【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

AWS Glue ETL Job設定

本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。

【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4

AWS Glue ETL Job

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商品,這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。

【AWS 數據戰情室】Day 14 Glue ETL Job 教學 – Part 1

S3資料源準備

接下來我們來介紹 Glue ETL Job,在開始之前我們需要先準備 資料源 。這次我們一樣使用 Kaggle 的資料,將資料放入 S3。S3 上的資料準備完成後,再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler 。

【AWS 數據戰情室】Day 13 Athena 教學

AWS S3 Athena 資料查詢

今天要介紹 Athena 在不透過 Glue Data Catalog 的情形下如何查詢 S3 的資料。首先我們還是一樣使用 order.csv 這個檔案當作資料源,將他上傳到S3後就可以開始 Athena 的設定。

【AWS 數據戰情室】Day11 Glue Partition 教學 – Part 1

儲存 大量資料時,影響查詢速度怎麼辦?本篇要介紹會使用到的資料切分方式 Partition 。當資料量小時在查詢的速度上不會有感覺,但今天資料量以機累積了一年兩年五年時,資料的大小與資料筆數就會很大的影響查詢度,所以 Partition 在 數據分析 中非常重要

【AWS 數據戰情室】Day10 Glue Data Catelog 教學 – Part 7

Classification

在上一篇講解完整的流程後,我們再回來說明 Table 的資訊與可調整的部分Table 說明:6-1. 點選創建成功的 Table Name,接著在6-2. 可以看到這個 Table 的詳細資訊, Classification 是哪一個類型的資料,原始資料所在的 AWS S3 路徑

【AWS數據戰情室】Day9 Glue Data Catalog 教學 – Part 6

AWS數據分析

上一篇說明使用 Athena 前需要執行的設定,本篇要接著使用 Athena 進行查詢,5-2. 設定完成後,就可以開始查詢 order.csv 裡的資料,Athena 是使用標準 SQL 進行查詢,所以如果會使用 SQL 操作 資料庫 ,再來是用 Athena 進行查詢分析幾乎是

【AWS數據戰情室】Day8 Glue Data Catalog 教學 – Part 5

Glue Data Catalog

延續昨天的步驟繼續將 Crawler 設定完成:IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue),Schedul 可以設定 Crawler 是否要定期執行,通常這個會用在需要將新的 Partition 更新到 Table 中時所使用

【AWS數據戰情室】Day2 Glue 基本介紹 – Part 1

AWS glue基本介紹 part1

AWS Glue 為全託管的 SaaS 服務,使用者可以不用管理 VM,以及不需要手動設置 Claster。用戶不需管理基礎設施,AWS Glue 會佈建、設定和擴展執行資料整合任務所需的資源,因此使用者可以節省部屬環境的時間,讓使用者只需專注在資料處理流程的規劃與程式開發。

解密 2021 遊戲商機!用AWS大數據挖出高含金量玩家

AWS遊戲業大數據

節慶假期常是遊戲業者推出限定活動與改版的佳機,各廠商無不使出混身解數只為提升用戶黏著度,深入挖掘高含金量玩家。面對大量玩家的數據資料,如何正確快速解讀並即時優化遊戲,將是是遊戲業者搶佔市場的關鍵要素!博弘雲端解決方案宋青雲處長表示,遊戲能累積的資料量非常可觀,從玩家資料