架構師專欄
【AWS 數據戰情室】Day 12 Glue Partition 教學 – Part 2
在 S3 上要如何設定 Partition 呢?在 S3 上 Partition 是透過資料夾階層來規劃,可使用年與月當作 Partition,再透過 Glue data Catalog 創建虛擬 Table,供 Athena 查詢使用。
【AWS 數據戰情室】Day11 Glue Partition 教學 – Part 1
儲存 大量資料時,影響查詢速度怎麼辦?本篇要介紹會使用到的資料切分方式 Partition 。當資料量小時在查詢的速度上不會有感覺,但今天資料量以機累積了一年兩年五年時,資料的大小與資料筆數就會很大的影響查詢度,所以 Partition 在 數據分析 中非常重要
【AWS 數據戰情室】Day10 Glue Data Catelog 教學 – Part 7
在上一篇講解完整的流程後,我們再回來說明 Table 的資訊與可調整的部分Table 說明:6-1. 點選創建成功的 Table Name,接著在6-2. 可以看到這個 Table 的詳細資訊, Classification 是哪一個類型的資料,原始資料所在的 AWS S3 路徑
【AWS數據戰情室】Day9 Glue Data Catalog 教學 – Part 6
上一篇說明使用 Athena 前需要執行的設定,本篇要接著使用 Athena 進行查詢,5-2. 設定完成後,就可以開始查詢 order.csv 裡的資料,Athena 是使用標準 SQL 進行查詢,所以如果會使用 SQL 操作 資料庫 ,再來是用 Athena 進行查詢分析幾乎是
【AWS數據戰情室】Day8 Glue Data Catalog 教學 – Part 5
延續昨天的步驟繼續將 Crawler 設定完成:IAM 的部分選擇我們在步驟 1-1 時創建的 IAM Role(ITGlue),Schedul 可以設定 Crawler 是否要定期執行,通常這個會用在需要將新的 Partition 更新到 Table 中時所使用
【AWS數據戰情室】Day 7 Glue Data Catalog 教學 – Part 4
上一篇完成前置步驟後,Glue Data Catelog 教學就進入到創建 Crawler啦!首先切換到 Crawlers 頁面,點選 Add crawlers,再點開 Crawler name 下面的選單,點選 Custom classifiers 裡剛剛創建的
【AWS數據戰情室】Day6 Glue Data Catalog 教學 – Part 3
了解 Classifiers 後,要來介紹如何將 Classifiers 與 Crawlers 結合進行資料爬取Crawlers 的部分會以一個小範例進行說明,首先我們要到 Kaggle 取得範例資料,資料內容為零售業的歷史訂單資料
【AWS數據戰情室】Day5 Glue Data Catalog 教學 – Part 2
講解完 Data Catalog 以及 Classifiers 、 Crawlers 、 Tables 的關係之後,接著介紹 JSON、CSV 的 Classifiers 設定。JSON path:此處設定如何讀取 JSON 檔?例如 JSON 檔內容如下
【AWS數據戰情室】Day4 Glue Data Catalog教學 – Part 1
Data Catalog 由 Classifiers、Crawlers、Tables 組成首先介紹 Classifiers,Classifiers 負責定義所要爬取的資料類型與內容格式,如下圖所示有 XML、JSON、CSV,而 Grok 是指自定義的資料內容格式
【AWS數據戰情室】Day3 Glue 基本介紹 – Part 2
AWS Glue有另外兩個主要功能:ETL JobETL Job 有三種 ETL 方式可使用Python shell當資料量還不需要分散式運算的計算量時,可以考慮使用 Python shell,Python shell 與 Lambda 相似,可以執行 Python Script
【AWS數據戰情室】Day2 Glue 基本介紹 – Part 1
AWS Glue 為全託管的 SaaS 服務,使用者可以不用管理 VM,以及不需要手動設置 Claster。用戶不需管理基礎設施,AWS Glue 會佈建、設定和擴展執行資料整合任務所需的資源,因此使用者可以節省部屬環境的時間,讓使用者只需專注在資料處理流程的規劃與程式開發。
【AWS數據戰情室】Day1 資料處理的相關服務
AWS 上有需多數據處理與分析的服務,常見的有 Glue、Athena、Redshift 等,我們將介紹如何在 AWS 上進行數據處理與分析,並解說如何使用 AWS Service,以及使用中常見問題的解決方法,最後會有實作範例提供參考,降低大家在 AWS 數據處理與分析的門檻。
【PHP on AWS】Day 15 MYSQL 管理上的難題
傳統上管理 MYSQL 都是開發的工作,而phpmyadmin則是cpanel中的工具,在迷你網站上cpanel已是必備工具,在拆分mysql後所需面對的就是如何去連過去。
【PHP on AWS】Day 14-AWS MYSQL 的選擇與評估
PAAS服務的 MYSQL 在AWS中通常指的是RDS MYSQL,這是指AWS利用EC2幫你做好的服務。雖然你無法碰到底層但是AWS的調教,功力絕對比你我都好,只是一樣會受到AWS EC2中的EBS所控制。另外還有一種資料庫是AWS特色服務 Amazon Aurora
【PHP on AWS】Day 13-EC2第一個拆分的東西MYSQL
其實很多東西都要分拆,不是只有MYSQL,只要是程式碼之外的的東西都是需要分拆的對象。
但是在整體結構當中通常資料庫都是第一分拆的,原因無他,在標準三層式架構中Web、AP、DB 本身就因該是獨立的且是做到HA的架構,且合理的三層式架構比起單台主機的架構相對多了彈性與擴展性。
【PHP on AWS】Day 12-AWS Security Group
Security Group 安全群組會做為您執行個體的虛擬防火牆,控制傳入及傳出流量。當您在 VPC 中啟動執行個體時,您可以為執行個體指派最多五個安全群組。安全群組會在執行個體層級執行,而非子網路層級。因此,在您 VPC 中子網路內的每個執行個體都可指派給一組不同的安全群組。
【PHP on AWS】Day 11-AWS VPC 網路設計
Amazon Virtual Private Cloud ( Amazon VPC ) 允許您在 AWS 雲端佈建一個在邏輯上隔離的部分,並在自己定義的虛擬網路中啟動 AWS 資源。您可以完全掌控虛擬聯網環境,包括選擇自己的 IP 地址範圍、建立子網路,以及配置路由表和網路閘道。
【PHP on AWS】Day 10-轉換EC2第一個面對的問題與AWS中最基本的「網路與資安」
AWS Security group 功能Security group的功能很簡單,他只是限定某個特定的IP、Port或是某範圍的IP、Port,限定這些東西能不能進出,可以把它視為一道非常簡單的防火牆,設定完Security group後,再套用到某些機器上
【PHP on AWS】Day 9-Amazon Lightsail 轉 AWS EC2
其實就主機資源這件事情是最容易理解的,但就真實應用情境上來說,如果你希望有真實的網路環境使用,可以建立真正的私有網段或者是控制路由等等的功能。Lightsail 是無法協助的,因為他的VPC是簡約版,如果需要完整的周邊功能,比如控制路由或與AWS其他幾百項的服務完整結合
【PHP on AWS】Day 8-SSL 並不是不能用 let’s encrypt 只是要換個方式
cloudfront 的原站不能用 let’s encrypt?整站套用CDN的時候最怕的是如果我使用了 let’s encrypt 結果更新失敗了!這時候整個網站就都會顯示502 gateway time out這時候該要怎樣避免這個問題