架構師專欄

Showing 13-24 of 101 results

  • AWS雲端解決方案

09/29 2021

【AWS 數據戰情室】Day 29 QuickSight 連接 Redshift – Part 2

QuickSight 是 AWS 的 BI工具 ,在設定完相關的環境參數後,可以開始設定 Redshift 的連接。一樣先到 QuickSight 的主頁,點選 New analysis,繼續進行QuickSight連接 Redshift的設定。

Read More
  • AWS雲端解決方案

09/22 2021

【AWS 數據戰情室】Day 28 QuickSight 連接 Redshift – Part 1

QuickSight 是 AWS 的 BI工具 ,QuickSight 可以非常方便且簡單的串接 AWS 的資料庫或 S3,在 QuickSight 中可以 Join 多張 Table 或是多個資料源並進行視覺化分析產出視覺化的圖表,透過 UI 的方式可以更快速的進行分析。

Read More
  • AWS雲端解決方案

09/15 2021

【AWS 數據戰情室】Day 27 持續同步 S3 資料到 Redshift – Part 2

透過 Glue Job 將 S3 資料儲存到 Redshift之後,接下來我們要來測試是否可以每天進行 Redshift 的資料更新,並且不會產生重複的資料,修改完 ETL Job 的 Script 後就可以直接執行此 Job。

Read More
  • AWS雲端解決方案

09/08 2021

【AWS 數據戰情室】Day 26 持續同步 S3 資料到 Redshift – Part 1

之前在 Glue 上進行資料存取時都是使用 S3 ,而今天我們要透過 Glue Job 將 S3 資料儲存到 Redshift。這次是使用 Day 17 的運算結果,每個 User 最喜歡的前五名商品清單,將它放到新的 S3 路徑下,並且將他切成三等份每一份大約 30 萬筆資料。

Read More
  • AWS雲端解決方案

09/01 2021

【AWS 數據戰情室】Day 25 透過 Data Catalog 連接 Redshift

Data Catalog 不只可以使用 S3 作為資料的存取點,也可以使用既有的資料庫作為資料的存取點,今天要來介紹如何將 Redshift 作為 Data Catalog 的資料存取點,讓 ETL 工具可以直接存取資料

Read More
  • AWS雲端解決方案

08/25 2021

【AWS 數據戰情室】Day 24 Redshift 教學

在介紹完 Amazon Redshift 後,我們直接來創建一個 Redshift。首先在創建 Redshift 前,需要先創建 cluster subnet group,其代表等等創建的 Redshift 要開在哪一個 VPC以及哪個 Subnet 上。

Read More
  • AWS雲端解決方案

08/11 2021

【AWS 數據戰情室】Day 23 Redshift 簡介

在介紹 Data Catalog 連接 Redshift 之前,我們先介紹 Redshift 這個資料庫。Redshift 在 AWS 上的定位是 Data Warehouse 也就是資料倉儲,而 Data Warehouse 與一般的資料庫有什麼不同呢?馬上來看詳細說明。

Read More
  • AWS雲端解決方案

08/04 2021

【AWS 數據戰情室】Day 22 Glue Workflows 教學 – Part 2

本篇補充創建 Glue 的自動化流程 Workflows 的小細節,上次介紹完 Workflow 的使用方式,可以正常產生出每個User購買最多的前五名商品,但如果是使用昨天的 S3 資料階層來當資料源時,Data Catalog 需要修改部分設定才能正常工作。

Read More
  • AWS雲端解決方案

07/28 2021

【AWS 數據戰情室】Day 21 Glue Workflows 教學 – Part 1

講完 AWS Data Catalog 與 ETL Job 後,在整個資料處理的流程中可能會需要用自動化的方式讓整個流程可以夠便利,資料若是以天為單位的方式存入S3,則會有 Partition 更新的需求,今天就要來介紹如何創建 Glue 的自動化流程 Workflows 。

Read More
  • AWS雲端解決方案

07/21 2021

【AWS 數據戰情室】Day 20 Glue ETL Job 教學-Python Shell-Part 2

Python Shell 進行 ETL 的設定完成後,可以看到一個空白的編輯器,這裡我們可以自行撰寫所需的 ETL 程式,接下來會介紹如何使用 pandas 進行 資料處理,產生出每個user 最喜歡購買的前五項商品清單。

Read More
  • AWS雲端解決方案

07/07 2021

【AWS 數據戰情室】Day 19 Glue ETL Job 教學-Python Shell-Part 1

在 Glue ETL Job 中 除了 Spark 可以使用之外,還可以使用 Python Shell 進行 ETL 的處理,Python Shell 裡已經包含了 Pandas 的 Library 可以直接使用,接下來會透過 Python Shell 的方式進行分析。

Read More
  • AWS雲端解決方案

06/30 2021

【AWS 數據戰情室】Day 18 Glue ETL Job 教學 – Part 5

本篇文章將延續前一篇說明,使用 Glue ETL Job 找出每個user最常購買的前五名商品,接續進行 spark SQL 程式碼 的設定,透過 spark SQL 對資料進行Group與排名。定義有哪些欄位要寫入 S3 ,並且定義該欄位的資料類型,設定完成即可得到完整程式碼。

Read More