【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1

Showing 13-24 of 68 results

  • AWS 數據解決方案

07/28 2021

【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1

講完 AWS Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,資料若是以天為單位的方式存入S3,則會有 Partition 更新的需求,今天就要來介紹如何創建 Glue 的自動化流程 Workflows 。

Read More
  • AWS 數據解決方案

07/21 2021

【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2

Python Shell 進行 ETL 的設定完成後,可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介紹如何使用 pandas 進行 資料處理,產生出每個user 最喜歡購買的前五項商品清單。

Read More
  • AWS 數據解決方案

07/07 2021

【AWS 數據戰情室】Day 19 Glue ETL Job 教學-Python Shell-Part 1

在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用,接下來會透過 Python Shell 的方式進行分析。

Read More
  • AWS 數據解決方案

06/30 2021

【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。

Read More
  • AWS 數據解決方案

06/23 2021

【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4

創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商品,這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。

Read More
  • AWS 數據解決方案

06/16 2021

【AWS 數據戰情室】Day 16 Glue ETL Job 教學 – Part 3

Job 的基礎設定完成後,接下來要設定資料源與輸出目標這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下。

Read More
  • AWS 數據解決方案

06/09 2021

【AWS 數據戰情室】Day 15 Glue ETL Job 教學 – Part 2

完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分。第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定。

Read More
  • AWS 數據解決方案

04/29 2021

【AWS 數據戰情室】Day 14 Glue ETL Job 教學 – Part 1

接下來我們來介紹 Glue ETL Job,在開始之前我們需要先準備 資料源 。這次我們一樣使用 Kaggle 的資料,將資料放入 S3。S3 上的資料準備完成後,再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler 。

Read More
  • AWS 數據解決方案

04/19 2021

【AWS 數據戰情室】Day 12 Glue Partition 教學 – Part 2

在 S3 上要如何設定 Partition 呢?在 S3 上 Partition 是透過資料夾階層來規劃,可使用年與月當作 Partition,再透過 Glue data Catalog 創建虛擬 Table,供 Athena 查詢使用。

Read More
  • AWS 數據解決方案

04/19 2021

【AWS 數據戰情室】Day11 Glue Partition 教學 – Part 1

儲存 大量資料時,影響查詢速度怎麼辦?本篇要介紹會使用到的資料切分方式 Partition 。當資料量小時在查詢的速度上不會有感覺,但今天資料量以機累積了一年兩年五年時,資料的大小與資料筆數就會很大的影響查詢度,所以 Partition 在 數據分析 中非常重要

Read More
  • AWS 數據解決方案

03/25 2021

【AWS 數據戰情室】Day10 Glue Data Catelog 教學 – Part 7

在上一篇講解完整的流程後,我們再回來說明 Table 的資訊與可調整的部分Table 說明:6-1. 點選創建成功的 Table Name,接著在6-2. 可以看到這個 Table 的詳細資訊, Classification 是哪一個類型的資料,原始資料所在的 AWS S3 路徑

Read More
  • AWS 數據解決方案

03/25 2021

【AWS數據戰情室】Day9 Glue Data Catalog 教學 – Part 6

上一篇說明使用 Athena 前需要執行的設定,本篇要接著使用 Athena 進行查詢,5-2. 設定完成後,就可以開始查詢 order.csv 裡的資料,Athena 是使用標準 SQL 進行查詢,所以如果會使用 SQL 操作 資料庫 ,再來是用 Athena 進行查詢分析幾乎是

Read More