【AWS 數據戰情室】Day 30 QuickSight 功能介紹
在資料源設定完成後,接下來介紹如何繪製圖表,以資料源是每個 User 購買數量為例,來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位,自訂自己的運算式,創建符合自己需求的圖表。
【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1
QuickSight 是 AWS 的 BI工具 ,QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3,在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表,透過 UI 的方式可以更快速的進行分析。
【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2
透過 Glue Job 將 S3 資料儲存到 Redshift之後,接下來我們要來測試是否可以每天進行 Redshift 的資料更新,並且不會產生重複的資料,修改完 ETL Job 的 Script 後就可以直接執行此 Job。
【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1
之前在 Glue 上進行資料存取時都是使用 S3 ,而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。這次是使用 Day 17 的運算結果,每個 User 最喜歡的前五名商品清單,將它放到新的 S3 路徑下,並且將他切成三等份每一份大約 30 萬筆資料。
【AWS 數據戰情室】Day 25 透過 Data Catalog 連接 Redshift
Data Catalog 不只可以使用 S3 作為資料的存取點,也可以使用既有的資料庫作為資料的存取點,今天要來介紹如何將 Redshift 作為 Data Catalog 的資料存取點,讓 ETL 工具可以直接存取資料
【AWS 數據戰情室】Day 24 Redshift 教學
在介紹完 Amazon Redshift 後,我們直接來創建一個 Redshift。首先在創建 Redshift 前,需要先創建 cluster subnet group,其代表等等創建的 Redshift 要開在哪一個 VPC以及哪個 Subnet 上。
【AWS 數據戰情室】Day 23 Redshift 簡介
在介紹 Data Catalog 連接 Redshift 之前,我們先介紹 Redshift 這個資料庫。Redshift 在 AWS 上的定位是 Data Warehouse 也就是資料倉儲,而 Data Warehouse 與一般的資料庫有什麼不同呢?馬上來看詳細說明。
【AWS 數據戰情室】Day 22 Glue Workflows 教學 – Part 2
本篇補充創建 Glue 的自動化流程 Workflows 的小細節,上次介紹完 Workflow 的使用方式,可以正常產生出每個User購買最多的前五名商品,但如果是使用昨天的 S3 資料階層來當資料源時,Data Catalog 需要修改部分設定才能正常工作。
【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1
講完 AWS Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,資料若是以天為單位的方式存入S3,則會有 Partition 更新的需求,今天就要來介紹如何創建 Glue 的自動化流程 Workflows 。
【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2
Python Shell 進行 ETL 的設定完成後,可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介紹如何使用 pandas 進行 資料處理,產生出每個user 最喜歡購買的前五項商品清單。
【AWS 數據戰情室】Day 19 Glue ETL Job 教學-Python Shell-Part 1
在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用,接下來會透過 Python Shell 的方式進行分析。
【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5
本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。
【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4
創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商品,這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。
【AWS 數據戰情室】Day 16 Glue ETL Job 教學 – Part 3
Job 的基礎設定完成後,接下來要設定資料源與輸出目標這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下。
【AWS 數據戰情室】Day 15 Glue ETL Job 教學 – Part 2
完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分。第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定。
【AWS 數據戰情室】Day 14 Glue ETL Job 教學 – Part 1
接下來我們來介紹 Glue ETL Job,在開始之前我們需要先準備 資料源 。這次我們一樣使用 Kaggle 的資料,將資料放入 S3。S3 上的資料準備完成後,再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler 。
【AWS 數據戰情室】Day 13 Athena 教學
今天要介紹 Athena 在不透過 Glue Data Catalog 的情形下如何查詢 S3 的資料。首先我們還是一樣使用 order.csv 這個檔案當作資料源,將他上傳到S3後就可以開始 Athena 的設定。
【AWS 數據戰情室】Day 12 Glue Partition 教學 – Part 2
在 S3 上要如何設定 Partition 呢?在 S3 上 Partition 是透過資料夾階層來規劃,可使用年與月當作 Partition,再透過 Glue data Catalog 創建虛擬 Table,供 Athena 查詢使用。
【AWS 數據戰情室】Day11 Glue Partition 教學 – Part 1
儲存 大量資料時,影響查詢速度怎麼辦?本篇要介紹會使用到的資料切分方式 Partition 。當資料量小時在查詢的速度上不會有感覺,但今天資料量以機累積了一年兩年五年時,資料的大小與資料筆數就會很大的影響查詢度,所以 Partition 在 數據分析 中非常重要
【AWS 數據戰情室】Day10 Glue Data Catelog 教學 – Part 7
在上一篇講解完整的流程後,我們再回來說明 Table 的資訊與可調整的部分Table 說明:6-1. 點選創建成功的 Table Name,接著在6-2. 可以看到這個 Table 的詳細資訊, Classification 是哪一個類型的資料,原始資料所在的 AWS S3 路徑
【AWS數據戰情室】Day9 Glue Data Catalog 教學 – Part 6
上一篇說明使用 Athena 前需要執行的設定,本篇要接著使用 Athena 進行查詢,5-2. 設定完成後,就可以開始查詢 order.csv 裡的資料,Athena 是使用標準 SQL 進行查詢,所以如果會使用 SQL 操作 資料庫 ,再來是用 Athena 進行查詢分析幾乎是
【AWS數據戰情室】Day8 Glue Data Catalog 教學 – Part 5
延續昨天的步驟繼續將 Crawler 設定完成:IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue),Schedul 可以設定 Crawler 是否要定期執行,通常這個會用在需要將新的 Partition 更新到 Table 中時所使用
【AWS數據戰情室】Day 7 Glue Data Catalog 教學 – Part 4
上一篇完成前置步驟後,Glue Data Catelog 教學就進入到創建 Crawler啦!首先切換到 Crawlers 頁面,點選 Add crawlers,再點開 Crawler name 下面的選單,點選 Custom classifiers 裡剛剛創建的
【AWS數據戰情室】Day6 Glue Data Catalog 教學 – Part 3
了解 Classifiers 後,要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取Crawlers 的部分會以一個小範例進行說明,首先我們要到 Kaggle 取得範例資料,資料內容為零售業的歷史訂單資料
【AWS數據戰情室】Day5 Glue Data Catalog 教學 – Part 2
講解完 Data Catalog 以及 Classifiers 、 Crawlers 、 Tables 的關係之後,接著介紹 JSON、CSV 的 Classifiers 設定。JSON path:此處設定如何讀取 JSON 檔?例如 JSON 檔內容如下
【AWS數據戰情室】Day2 Glue 基本介紹 – Part 1
AWS Glue 為全託管的 SaaS 服務,使用者可以不用管理 VM,以及不需要手動設置 Claster。用戶不需管理基礎設施,AWS Glue 會佈建、設定和擴展執行資料整合任務所需的資源,因此使用者可以節省部屬環境的時間,讓使用者只需專注在資料處理流程的規劃與程式開發。
解密 2021 遊戲商機!用AWS大數據挖出高含金量玩家
節慶假期常是遊戲業者推出限定活動與改版的佳機,各廠商無不使出混身解數只為提升用戶黏著度,深入挖掘高含金量玩家。面對大量玩家的數據資料,如何正確快速解讀並即時優化遊戲,將是是遊戲業者搶佔市場的關鍵要素!博弘雲端解決方案宋青雲處長表示,遊戲能累積的資料量非常可觀,從玩家資料