首頁 » ETL JOB

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

Filter by:

Showing 1-8 of 8 results

09/29 2021

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

07/21 2021

Python Shell 進行 ETL 的設定完成後，可以看到一個空白的編輯器，這裡我們可以自行撰寫所需的 ETL 程式，接下來會介紹如何使用 pandas 進行資料處理，產生出每個user 最喜歡購買的前五項商品清單。

07/07 2021

在 Glue ETL Job 中除了 Spark 可以使用之外，還可以使用 Python Shell 進行 ETL 的處理，Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用，接下來會透過 Python Shell 的方式進行分析。

06/30 2021

本篇文章將延續前一篇說明，使用 Glue ETL Job 找出每個user最常購買的前五名商品，接續進行 spark SQL 程式碼的設定，透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ，並且定義該欄位的資料類型，設定完成即可得到完整程式碼。

06/23 2021

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容，在預設的程式碼中只能做到資料搬遷，那這次我們的目標是要找出每個 user 最常購買的前五名商品，這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。

06/16 2021

Job 的基礎設定完成後，接下來要設定資料源與輸出目標這一步驟可以選擇要處理的資料源，選擇 Glue Data Catalog 中的 Table，這邊我們選擇 order_products_prior，就可以繼續往下。

06/09 2021

完成 S3 資料源的準備後，我們來看如何使用 Glue ETL Job，先來介紹 Spark 的部分。第一個設定頁面是 Job 的基本設定，跟運算有關的都在這邊進行設定。

04/29 2021

接下來我們來介紹 Glue ETL Job，在開始之前我們需要先準備資料源。這次我們一樣使用 Kaggle 的資料，將資料放入 S3。S3 上的資料準備完成後，再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler 。