架構師專欄

為您解析AWS技術大小事

【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。

閱讀更多 »

【AWS 數據戰情室】Day11 Glue Partition 教學 – Part 1

儲存 大量資料時,影響查詢速度怎麼辦?本篇要介紹會使用到的資料切分方式 Partition 。當資料量小時在查詢的速度上不會有感覺,但今天資料量以機累積了一年兩年五年時,資料的大小與資料筆數就會很大的影響查詢度,所以 Partition 在 數據分析 中非常重要

閱讀更多 »