03/10 2021

【AWS數據戰情室】Day5 Glue Data Catalog 教學 – Part 2

CSV

講解完 Data Catalog 以及 ClassifiersCrawlersTables 的關係之後,接著介紹 JSONCSV Classifier 設定

c. JSON 設定

classifier

JSON path:此處設定如何讀取 JSON 檔
例如 JSON 檔內容如下,則 JSON path 需填入 $[*],$ 代表著整個 JSON 檔內容,[*] 代表我要取出陣列中所有的資料

classifier

d. CSV 設定

classifier

Column delimiter:選擇 CSV 資料欄位主要的分隔符號,通常逗號、空白、Tab 比較常見
Quote symbol:選擇 CSV 欄位的次要分隔符號,通常為雙引號,當欄位資料可能包含主要分隔符號時就會使用次要分隔符號將該欄位分隔出來

範例資料如下,在英文名稱的欄位中可能會也逗號產生也就是主要分隔符號,所以會用雙引號將其進行分隔,避免誤判資料欄位
user_id,english_name,phone_num
001,”HUANG,SIAO-MING”,0912345678

Column headings:用於設定欄位名稱,有三種不同選項,分別為

  1. Detect headings -> 讓 Glue 自動偵測 CSV 的欄位名稱,當沒有欄位名稱時會自動補上默認的欄位名稱 col0,col1,col2, …
  2. Has headings -> 讓 Glue 知道 CSV 有欄位名稱,如果想要修改為自己的欄位名稱,可以直接將新的欄位名稱填入下方的欄位並用逗號隔開
  3. No headings -> 讓 Glue 知道 CSV 沒有欄位名稱,Glue 會自動補上默認的欄位名稱col0,col1,col2, …,也可以在下面欄位填入自己的欄位名稱並用逗號隔開

Processing options:

  1. Allow files with single column -> 允許只有一個欄位的資料檔案進行解析
  2. Trim whitespace before identifying column values -> 在進行欄位的資料類型判定前,將欄位中的前後的空白去除,如果含有空白則會被判定為 String

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!