首頁 » 資料處理

【AWS 數據戰情室】Day 12 Glue Partition 教學 – Part 2

Filter by:

Showing 1-11 of 11 results

04/19 2021

在 S3 上要如何設定 Partition 呢？在 S3 上 Partition 是透過資料夾階層來規劃，可使用年與月當作 Partition，再透過 Glue data Catalog 創建虛擬 Table，供 Athena 查詢使用。

04/19 2021

儲存大量資料時，影響查詢速度怎麼辦？本篇要介紹會使用到的資料切分方式 Partition 。當資料量小時在查詢的速度上不會有感覺，但今天資料量以機累積了一年兩年五年時，資料的大小與資料筆數就會很大的影響查詢度，所以 Partition 在數據分析中非常重要

03/25 2021

在上一篇講解完整的流程後，我們再回來說明 Table 的資訊與可調整的部分Table 說明：6-1. 點選創建成功的 Table Name，接著在6-2. 可以看到這個 Table 的詳細資訊， Classification 是哪一個類型的資料，原始資料所在的 AWS S3 路徑

03/25 2021

上一篇說明使用 Athena 前需要執行的設定，本篇要接著使用 Athena 進行查詢，5-2. 設定完成後，就可以開始查詢 order.csv 裡的資料，Athena 是使用標準 SQL 進行查詢，所以如果會使用 SQL 操作資料庫，再來是用 Athena 進行查詢分析幾乎是

03/17 2021

延續昨天的步驟繼續將 Crawler 設定完成：IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue)，Schedul 可以設定 Crawler 是否要定期執行，通常這個會用在需要將新的 Partition 更新到 Table 中時所使用

03/17 2021

上一篇完成前置步驟後，Glue Data Catelog 教學就進入到創建 Crawler啦！首先切換到 Crawlers 頁面，點選 Add crawlers，再點開 Crawler name 下面的選單，點選 Custom classifiers 裡剛剛創建的

03/11 2021

了解 Classifiers 後，要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取Crawlers 的部分會以一個小範例進行說明，首先我們要到 Kaggle 取得範例資料，資料內容為零售業的歷史訂單資料

03/10 2021

講解完 Data Catalog 以及 Classifiers 、 Crawlers 、 Tables 的關係之後，接著介紹 JSON、CSV 的 Classifiers 設定。JSON path：此處設定如何讀取 JSON 檔？例如 JSON 檔內容如下

03/03 2021

Data Catalog 由 Classifiers、Crawlers、Tables 組成首先介紹 Classifiers，Classifiers 負責定義所要爬取的資料類型與內容格式，如下圖所示有 XML、JSON、CSV，而 Grok 是指自定義的資料內容格式

03/03 2021

AWS Glue有另外兩個主要功能：ETL JobETL Job 有三種 ETL 方式可使用Python shell當資料量還不需要分散式運算的計算量時，可以考慮使用 Python shell，Python shell 與 Lambda 相似，可以執行 Python Script

02/02 2021

AWS Glue 為全託管的 SaaS 服務，使用者可以不用管理 VM，以及不需要手動設置 Claster。用戶不需管理基礎設施，AWS Glue 會佈建、設定和擴展執行資料整合任務所需的資源，因此使用者可以節省部屬環境的時間，讓使用者只需專注在資料處理流程的規劃與程式開發。