09/01 2021

【AWS 數據戰情室】Day 25 透過 Data Catalog 連接 Redshift

數據戰情室 Data Catalog 連接Redshift

Data Catalog 不只可以使用 S3 作為資料的存取點,也可以使用既有的資料庫作為資料的存取點,今天要來介紹如何將 Redshift 作為 Data Catalog 的資料存取點,讓 ETL 工具可以直接存取資料

1.在開始前我們先設定 Redshift 所使用的 Security Group,請在 Inbound rules 中加入以下規則,讓 Glue 不會受到 Security Group 的阻擋

2.在 Regshift 所在的 VPC 設定 S3 Endpoint

3.Endpoint 的設定中,Service Name 請選擇 S3,VPC 請選擇 Redshift 所在的 VPC,Configure route tables 請勾選 Redshift 所在 Subnet 所使用的 Route Table,或全部勾選

4.接下來就可以回到 Glue 設定 Redshift 的連接

5.Connection type 請選擇 Amazon Redshift

6.接下來選擇 Cluster,選擇我們在昨天所創建的 Redshift,並填入 Database name、Username、Password,如果在這一步驟有跳出錯誤,可能是步驟 1 的 Security Group 設定有誤,可以從新確認一次在重新設定連線
設定完成後點選下一步後就可以直接點選 Finish

7.創建完成後可以進行連線測試

8.IAM role 的部分選擇 Day 6 所創建的 ITGlue,就可以執行測試,測試連線會需要一點點的時間

9.測試成功會顯示 connected successfully,如果失敗可能是步驟 2 的 Endpoint 設定有誤,可以從新確認一次後再重新執行連線測試

請持續鎖定 Nextlink 架構師專欄,以獲得最新專業資訊喔!

若您有任何 AWS 需求,歡迎與我們聯繫!