首頁 » 架構師專欄 » 【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

06/30 2021

AWS 數據解決方案

【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

延續上一篇的程式碼說明

這部分是透過 spark SQL 對資料進行 Group 與排名
- data_cnt：將 “product_id”, “product_name”, “user_id” 三個欄位進行 Gloup 計算出每個 user 購買的商品數量
- data_rank：以 user_id 與購買的商品數量進行排名
- data_top_five：只取每個 user 購買數量前五多的商品
- top_five_list：只取”product_name”,”user_id”,”count”,”row_num” 四個欄位並依照 user 與排名進行排序

combi_data：因為 spark 是分散式的運算所以運算結果會多個檔案呈現，所以透過 coalesce 將 spark 每個節點運算出來的結果進行合併
top_five_DyF：最後將資料類型由 Data Frame 轉為 DynamicFrame，因為接下來要以 Glue 的 Function 將資料寫入 S3

定義有哪些欄位要寫入 S3，並且定義該欄位的資料類型

第一個資料源的程式碼會由 Glue 自動產生，會對應到 Data Catalog 中的 DB 與 Table

完整程式碼

程式碼可以直接複製貼上，但資料源的 Database 與 table 名稱需要調整，以及 datasink2 的 S3 路徑也需要修改

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job

from awsglue.dynamicframe import DynamicFrame
import pyspark.sql.functions as F
from pyspark.sql.window import Window

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, [‘JOB_NAME’])

sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args[‘JOB_NAME’], args)
## @type: DataSource
## @args: [database = “it_db”, table_name = “order_products_prior”, transformation_ctx = “datasource0”]
## @return: order_products_prior
## @inputs: []
order_products_prior = glueContext.create_dynamic_frame.from_catalog(database = “it_db”, table_name = “order_products_prior”, transformation_ctx = “order_products_prior”)

## @type: DataSource
## @args: [database = “sampledata”, table_name = “order”, transformation_ctx = “order”]
## @return: order
## @inputs: []
order = glueContext.create_dynamic_frame.from_catalog(database = “it_db”, table_name = “order”, transformation_ctx = “order”)

## @type: DataSource
## @args: [database = “sampledata”, table_name = “order”, transformation_ctx = “order”]
## @return: order
## @inputs: []
products = glueContext.create_dynamic_frame.from_catalog(database = “it_db”, table_name = “products”, transformation_ctx = “products”)

## @type: Join
## @args: [keys1 = [“order_id”], keys2 = [“order_id”]]
## @return: joindata
## @inputs: [frame1 = order_products_prior, frame2 = order]
join_order = Join.apply(frame1 = order_products_prior, frame2 = order, keys1 = [“order_id”], keys2 = [“order_id”], transformation_ctx = “joindata”)

## @type: Join
## @args: [keys1 = [“order_id”], keys2 = [“order_id”]]
## @return: joindata
## @inputs: [frame1 = order_products_prior, frame2 = order]
join_products = Join.apply(frame1 = join_order, frame2 = products, keys1 = [“product_id”], keys2 = [“product_id”], transformation_ctx = “joindata_products”).toDF()

data_cnt = join_products.groupBy(“product_id”, “product_name”, “user_id”).count()
data_rank = data_cnt.withColumn(“row_num”, F.row_number().over(Window.partitionBy(“user_id”).orderBy(data_cnt[“count”].desc())))
data_top_five = data_rank.filter(data_rank.row_num <= 5)
top_five_list = data_top_five[“product_name”,”user_id”,”count”,”row_num”].orderBy(“user_id”, “row_num”, ascending=[1,1])

combi_data = top_five_list.coalesce(1)

top_five_DyF = DynamicFrame.fromDF(combi_data, glueContext, “top_five_DyF”)

## @type: ApplyMapping
## @args: [mapping = [(“order_id”, “long”, “order_id”, “long”), (“product_name”, “long”, “product_name”, “long”), (“add_to_cart_order”, “long”, “add_to_cart_order”, “long”), (“reordered”, “long”, “reordered”, “long”)], transformation_ctx = “applymapping1”]
## @return: applymapping1
## @inputs: [frame = datasource0]
applymapping1 = ApplyMapping.apply(frame = top_five_DyF, mappings = [(“product_name”, “long”, “product_name”, “long”), (“user_id”, “long”, “user_id”, “long”), (“count”, “bigint”, “count”, “bigint”), (“row_num”, “bigint”, “row_num”, “bigint”)], transformation_ctx = “applymapping1”)
## @type: DataSink
## @args: [connection_type = “s3”, connection_options = {“path”: “s3://it.sample.s3/it_spark_job”}, format = “csv”, transformation_ctx = “datasink2”]
## @return: datasink2
## @inputs: [frame = applymapping1]
datasink2 = glueContext.write_dynamic_frame.from_options(frame = applymapping1, connection_type = “s3”, connection_options = {“path”: “s3://it.sample.s3/it_spark_job”}, format = “csv”, transformation_ctx = “datasink2”)

job.commit()

請持續鎖定 Nextlink 架構師專欄，以獲得最新專業資訊喔!

若您有任何 AWS 需求，歡迎與我們聯繫!

聯絡我們

Previous 【AWS 數據戰情室】Day 17 Glue ETL Job 教學 – Part 4

Next【AWS 數據戰情室】Day 19 Glue ETL Job 教學-Python Shell-Part 1

AWS 數據解決方案

01/06 2023

全球瘋世界盃足球賽 AWS 用大數據與機器學習服務預測比賽結果

2022世界盃足球賽正式落幕，今年由阿根廷拿下冠軍。而在比賽過程當中，球員的一舉一動，也能夠透過AWS大數據與機器學習的服務，分析足球員的每個步伐與對戰過程，讓教練能夠從數據分析的結過替球隊做最好的安排。本篇的架構師專欄，將帶您看如何用AWS雲端服務分析世足賽事!

AWS 數據解決方案

10/06 2021

【博弘雲端數據戰情室】Day 30 Amazon QuickSight 功能介紹

在資料源設定完成後，接下來介紹如何繪製圖表，以資料源是每個 User 購買數量為例，來建立圖表看哪些商品的購買量最多。從建立 QuickSight 的 Filter及自建欄位，自訂自己的運算式，創建符合自己需求的圖表。

AWS 數據解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具，在設定完相關的環境參數後，可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁，點選 New analysis，繼續進行QuickSight連接 Redshift的設定。

AWS 數據解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具，QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3，在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表，透過 UI 的方式可以更快速的進行分析。

AWS 數據解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後，接下來我們要來測試是否可以每天進行 Redshift 的資料更新，並且不會產生重複的資料，修改完 ETL Job 的 Script 後就可以直接執行此 Job。