03/30 2021

次世代雲端代管的監控

Nextlink 次世代雲端代管的監控

上雲後的第一步:監控及維護

疫情迫使企業改變營運模式,並加速數位轉型的步調,雖然雲端遷移為轉型的開始,但搬遷上雲之後,必須要隨時執行監控,確保整體系統在高可用性的標準下營運。一般情況下,企業須花費人力與時間成本進行監控,而博弘雲端身為 AWS MSP 合作夥伴,則會針對客戶的環境進行主動監控,並保證系統發生問題時能在最短的時間內解決,避免企業營運中斷帶來大量損失,以及機密資料暴露於資安風險。為讓您更認識博弘次世代雲端監控,本篇將帶您了解 AWS 監控的四個步驟以及相關服務。

AWS監控四大步驟

監控必需要有效地檢測故障,最嚴重的故障模式是靜默故障,代表該服務不再運行,但通常難以檢測到這個錯誤。因此,在 AWS 會檢測多個級別上的應用程式並記錄每個需求、所有依賴關係,以及流程中關鍵操作的延遲、錯誤率和可用性,並將監控分為以下四大步驟:

1. 監控所有工作負載的組件

使用 Amazon CloudWatch 或第三方工具來監控工作負載的組件,以及 Personal Health Dashboard 監控 AWS 服務的更新通知。企業應監視工作負載的所有組件,包括前端、商業邏輯和儲存,如有必要,需定義關鍵指標以及如何從日誌中提取資料,並為相對應的告警事件設定上限值。而 AWS 提供了大量監控和日誌訊息服務,可依照您的需求來定義流程,以下是產生日誌和指標資料服務的部分功能:

  • ECS、EC2、ELB、AWS Auto Scaling 和 Amazon EMR 會發布 CPU、網路和硬碟 I / O 平均值的指標。
  • 可以為 S3、CLB 和 ALB 啟用 Amazon CloudWatch Logs。
  • 可以啟用 VPC Flow log 來分析進出 VPC 的網路流量。
  • AWS CloudTrail 記錄 AWS 帳戶活動,包括通過 AWS 管理控制台、AWS SDK、命令列工具執行的操作。
  • Amazon EventBridge 提供即時的系統事件流向資料,他會顯示 AWS 服務中的更改的部分。
  • AWS 提供了收集作業系統級別的日誌並將其傳輸到 CloudWatch Logs 工具。
  • 自定義 Amazon CloudWatch 指標可用於任何維度的指標。
  • Amazon ECS 和 AWS Lambda 將日誌數據流傳輸到 CloudWatch Logs。
  • AWS AI 和 ML 服務,例如 Amazon Rekognition、Amazon Lex 和 Amazon Polly 為成功和不成功的請求提供指標。
  • AWS IoT 提供了規則執行次數的以及圍繞規則特定成功和的失敗指標。
  • Amazon API Gateway 提供有關API的請求數量、錯誤請求和延遲的指標。
  • Personal Health Dashboard 使您可以個人化查看 AWS 資源基礎上的 AWS 服務的性能和可用性。

2. 定義及計算指標

儲存日誌資料,並在必要時使用篩選器以計算指標,例如:特定日誌事件的次數或根據日誌事件時間戳記來計算延遲。Amazon CloudWatch 和 Amazon S3 可當作主要的整合和儲存 log 服務。AWS Auto Scaling 和 Elastic Load Balancing,預設提供相關指標,可用於 Cluster 或 Instance 上的 CPU 負載或平均請求延遲。 VPC Flow Logs 和 AWS CloudTrail 等服務的事件資料將傳到 CloudWatch Logs,您可以依照需求定義並運用指標篩選器以進行資料的擷取。

3. 及時處理和告警、發送通知並自動回應

當偵測到事件時,可以使用自動化的方法來處理問題,例如:更換故障組件。
在 AWS 中也有服務的組合可以進行告警通知,例如:可以觸發 AWS Auto Scaling event,讓 Cluster 對需求變化做出反應。也可以發送到 Amazon SQS,該服務可以用作第三方工單系統的整合。您可以使用 AWS Lambda 訂閱告警,為用戶提供一個非對稱式的無伺服器模型,該模型可以動態回應變化。AWS Config 持續監控和記錄您的 AWS 資源配置,並且可以觸發 AWS Systems Manager Automation 來將問題導正。

4. 儲存及分析

收集日誌文件和指標歷史記錄,並對其進行分析,以獲取更廣泛的趨勢和工作負載洞見。Amazon CloudWatch Logs Insights 是一種簡單但功能強大的查詢語言,您可以使用該語言來分析日誌資料。而 Amazon CloudWatch Logs 支援訂閱,這些訂閱允許資料無縫地流到 Amazon S3 或 Amazon Athena 來進行查詢。它支持對多種格式的查詢。為了分析龐大的日誌文件集,您可以運行 Amazon EMR 叢集來運行 PB 級的分析。當然,您也可以使用第三方合作夥伴例如:New Relic、Data dog、Splunk、Logstash 等所提供的解決方案,來進行日誌的匯整、處理、儲存和分析。

監控過程中經常被忽略就是資料管理,您需要確定監控資料的保留規定,然後相應地應用其生命週期策略。 S3 bucket 支援生命週期管理,可依照資料存取程度來決定資料的生命週期,當資料被歸類成冷資料時,您可以放到 Amazon S3 Glacier 進行長期儲存。 S3 Intelligent-Tiering 儲存類別透過自動將資料移動到最具成本效益的存取層級來優化成本,不會影響效能或運營成本。

AWS 次世代雲端代管與監控

由於雲端環境變化劇烈,因此 AWS MSP 能主動從複雜的監控告警事件中找出問題發生的原因,這些告警可區分異常偏差與正常的日常波動。隨著客戶環境的擴展日益複雜,MSP 需要透過有效的方法來可視化所有組件隨時間的變化。為了進行歷史分析,所有數據都將按各層級的標準至少保留 15 個月,使 MSP 可針對客戶的基礎架構和應用程式發展進行深度分析,並制定相關技術決策。

博弘雲端身為首家在台灣取得 MSP 資格的合作夥伴,可透過 AWS 原生以及第三方合作夥伴所提供的解決方案,為客戶建置完整的 AWS 環境主動監控,並在告警發生時即時解決問題,成為您的最佳雲端後盾!

在看完本篇文章之後,如果您對 AWS MSP 系統監控有需求,歡迎撥打免費電話 0800-500-960 #620,由專人為您服務!

博弘雲端快訊

  • 好文分享: AWS AWS 機器學習首部曲:四大類型 (閱讀更多)
  • 好文分享:AWS 機器學習二部曲:7步驟建立模型 (閱讀更多)
  • 好文分享:AWS 機器學習三部曲:四大產業應用 (閱讀更多)

AWS 產業新訊