Contact Us

首頁 » 架構師專欄 » 【AWS數據戰情室】Day4 Glue Data Catalog教學 – Part 1

03/03 2021

AWS 數據解決方案

【AWS數據戰情室】Day4 Glue Data Catalog教學 – Part 1

XML

Data Catalog 由 Classifiers、Crawlers、Tables 組成

首先介紹 Classifiers，Classifiers 負責定義所要爬取的資料類型與內容格式，如下圖所示有 XML、JSON、CSV，而 Grok 是指自定義的資料內容格式

Grok

a. Grok 設定

Grok pattern

Classifcation：資料內容的說明，例如 Apache-Log
Grok pattern：用於描述一行的資料內容
假設資料內容如下
192.168.131.39:2817 "app/test/a.jpg" 2020-07-02T22:23:00.186641Z

Grok pattern 的內容可以如下
%{DATA:client}s+"%{DATA:request}"s+%{TIMESTAMP_ISO8601:timestamp_response}

pattern 中的 %{DATA:client} 代表著第一個欄位，DATA 代表這個欄位的正則表達式.*? ，client 代表欄位名稱，%{TIMESTAMP_ISO8601:timestamp_response} 代表第二個欄位，TIMESTAMP_ISO8601 代表這個欄位的時間格式，正則表達式的寫法為 %{YEAR}-%{MONTHNUM}-%{MONTHDAY}[T ]%{HOUR}:?%{MINUTE}(?::?%{SECOND})?%{ISO8601_TIMEZONE}? TZ (?:[PMCE][SD]T|UTC)，timestamp_response則是此欄位名稱，而兩個欄位中間的 s+ 則代表著一個空白或多個空白

Classifiers 有提供常見的正則表達式的規則，下圖為可以直接使用的 pattern，還有更多AWS已經定義好的 pattern 可以參考此連結

Classifiers

b. XML 設定

classifier

Row tag：設定要爬取的 XML Tag
假設 XML 資料如下圖所示，我們可以指定 Profile 中的資料進行爬取，name 會代表第一個欄位名稱，Jack 會是此欄位的第一筆資料，Kiran 則會是此欄位第二筆資料。

XML Tag

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

Previous 【博弘雲端數據戰情室】Day3 Glue 基本介紹 – Part 2

Next【AWS數據戰情室】Day5 Glue Data Catalog 教學 – Part 2

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

Read More

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

Read More

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

Read More

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

Read More

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。

Read More

You are using an outdated browser. Please upgrade your browser to improve your experience and security.

您正在使用 版本過舊 的瀏覽器。請更新您的瀏覽器以改善您的使用體驗及安全性。