博弘雲端提供包含AWS解決方案、中國解決方案等一站式雲端服務,您可以點選並深入了解相關服務內容,或是根據您的產業類別進行選擇。
博弘雲端致力發展多元化的自有產品和服務,自主研發智能雲資源管理平台和生成式 AI 解決方案,同時圍繞三大核心技術架構:Optimization 持續優化、Data 數據應用和 Security 資訊安全,提供雲端專業服務及全天候託管服務,全力支持企業的數位及數據應用轉型,強健企業韌性。
博弘雲端提供建立於雲端基礎之上的各式數位整合加值服務,提升雲端服務運作效能,極大化企業綜效。
服務全球超過2000家企業客戶,博弘雲端提供專業的雲端解決方案,協助企業優化雲端架構與提供完整的技術諮詢。我們致力於協助客戶在雲端服務上取得成功,用雲端在各個產業取得領先的優勢。
首頁 » ETL JOB
Filter by:
Showing 1-8 of 8 results
09/29 2021
QuickSight 是 AWS 的 BI工具 ,在設定完相關的環境參數後,可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁,點選 New analysis,繼續進行QuickSight連接 Redshift的設定。
07/21 2021
Python Shell 進行 ETL 的設定完成後,可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介紹如何使用 pandas 進行 資料處理,產生出每個user 最喜歡購買的前五項商品清單。
07/07 2021
在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用,接下來會透過 Python Shell 的方式進行分析。
06/30 2021
本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。
06/23 2021
創建完 ETL 的 Spark Job 後我們要加入資料處理的內容,在預設的程式碼中只能做到資料搬遷,那這次我們的目標是要找出每個 user 最常購買的前五名商品,這部分會使用 PySpark 的進行。接下來會以修改後的程式進行說明。
06/16 2021
Job 的基礎設定完成後,接下來要設定資料源與輸出目標這一步驟可以選擇要處理的資料源,選擇 Glue Data Catalog 中的 Table,這邊我們選擇 order_products_prior,就可以繼續往下。
06/09 2021
完成 S3 資料源的準備後,我們來看如何使用 Glue ETL Job,先來介紹 Spark 的部分。第一個設定頁面是 Job 的基本設定,跟運算有關的都在這邊進行設定。
04/29 2021
接下來我們來介紹 Glue ETL Job,在開始之前我們需要先準備 資料源 。這次我們一樣使用 Kaggle 的資料,將資料放入 S3。S3 上的資料準備完成後,再到 Glue 的 Crawlers 在創建一次我們在 Day 7 所創建的 Crawler 。