【AWS數據戰情室】Day 7 Glue Data Catalog 教學 – Part 4

Showing 25-31 of 31 results

  • AWS 數據解決方案

03/17 2021

【AWS數據戰情室】Day 7 Glue Data Catalog 教學 – Part 4

上一篇完成前置步驟後,Glue Data Catelog 教學就進入到創建 Crawler啦!首先切換到 Crawlers 頁面,點選 Add crawlers,再點開 Crawler name 下面的選單,點選 Custom classifiers 裡剛剛創建的

Read More
  • AWS 數據解決方案

03/11 2021

【AWS數據戰情室】Day6 Glue Data Catalog 教學 – Part 3

了解 Classifiers 後,要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取Crawlers 的部分會以一個小範例進行說明,首先我們要到 Kaggle 取得範例資料,資料內容為零售業的歷史訂單資料

Read More
  • AWS 數據解決方案

03/10 2021

【AWS數據戰情室】Day5 Glue Data Catalog 教學 – Part 2

講解完 Data Catalog 以及 Classifiers 、 Crawlers 、 Tables 的關係之後,接著介紹 JSON、CSV 的 Classifiers 設定。JSON path:此處設定如何讀取 JSON 檔?例如 JSON 檔內容如下

Read More
  • AWS 數據解決方案

03/03 2021

【AWS數據戰情室】Day4 Glue Data Catalog教學 – Part 1

Data Catalog 由 Classifiers、Crawlers、Tables 組成首先介紹 Classifiers,Classifiers 負責定義所要爬取的資料類型與內容格式,如下圖所示有 XML、JSON、CSV,而 Grok 是指自定義的資料內容格式

Read More
  • AWS 數據解決方案

03/03 2021

【博弘雲端數據戰情室】Day3 Glue 基本介紹 – Part 2

AWS Glue有另外兩個主要功能:ETL JobETL Job 有三種 ETL 方式可使用Python shell當資料量還不需要分散式運算的計算量時,可以考慮使用 Python shell,Python shell 與 Lambda 相似,可以執行 Python Script

Read More
  • AWS 數據解決方案

02/02 2021

【博弘雲端數據戰情室】Day2 Glue 基本介紹 Part 1

AWS Glue 為全託管的 SaaS 服務,使用者可以不用管理 VM,以及不需要手動設置 Claster。用戶不需管理基礎設施,AWS Glue 會佈建、設定和擴展執行資料整合任務所需的資源,因此使用者可以節省部屬環境的時間,讓使用者只需專注在資料處理流程的規劃與程式開發。

Read More
  • AWS 數據解決方案

02/01 2021

【AWS數據戰情室】Day1 資料處理的相關服務

AWS 上有需多數據處理與分析的服務,常見的有 Glue、Athena、Redshift 等,我們將介紹如何在 AWS 上進行數據處理與分析,並解說如何使用 AWS Service,以及使用中常見問題的解決方法,最後會有實作範例提供參考,降低大家在 AWS 數據處理與分析的門檻。

Read More