2024年7月,微軟和CrowdStrike發生了一項重大事件,導致全球範圍內的IT中斷。這次的事件源自於 CrowdStrike 的 Falcon 驅動程序更新中出現的配置文件錯誤,影響了使用 Windows系統的設備,讓這些設備陷入藍屏死機狀態。
在這次的故障事件中,特別影響了啟用BitLocker磁盤加密的設備,也讓恢復過程更加困難。 全球受到影響的產業包括知名航空公司,導致全球超過5000架航班取消,並且有銀行受影響並造成嚴重的經濟損失。事件發生後,許多受影響的企業和使用者需要手動修復每台受影響的設備,不僅耗時且複雜。
有鑑於此,博弘雲端特別幫您整理遇到類似的資訊災難時,可以運用哪些關鍵的備援系統,減少像微軟與CrowdStrike 這類型的事件發生時,因營運中斷而造成企業經濟損失的機會。
AWS災難備援前置五步驟 強化系統確保連續性
天有不測風雲,我們很難預測哪天又會再次碰上全球性的資訊與軟硬體設備故障的事件。因此災難備援的設置就相當重要。先前我們曾經介紹,傳統的備援模式,是企業必須要採購或租用實體的機房才能進行,但在成本支出上將會是一大考驗,因此採用公有雲端系統進行更大彈性的災難備援將會是最好的選擇。從微軟和CrowdStrike事件中學習,企業可以使用AWS雲端系統建立強大的災難備援機制,以確保營運連續性。
自動備份和快照
利用AWS的Amazon RDS、EBS和S3等服務,自動執行定期數據備份和快照,以確保在發生數據丟失或損壞時能夠快速恢復。以異地備份的方式,防止單一地理位置的災難影響。
高可用性架構
設計和部署多可用區架構,使用Amazon EC2 Auto Scaling和Elastic Load Balancing來自動分配流量並管理資源,以提高應用程序的可用性和彈性。這種架構可以確保即使某個可用區出現故障,服務也能繼續運行。
災難恢復計劃
制定全面的災難恢復計劃,包括業務影響分析和恢復時間目標(RTO)。利用AWS的災難恢復服務(如CloudEndure Disaster Recovery)實現快速故障切換,並定期進行演練以測試計劃的有效性。
安全性和合規性
使用AWS Identity and Access Management (IAM)和AWS Key Management Service (KMS)管理使用者訪問和數據加密,確保系統符合安全和合規性要求。
持續監控和警報
使用Amazon CloudWatch監控系統性能和資源使用情況,並設置警報以便及時響應異常事件。此外,利用AWS CloudTrail記錄所有API調用,以便進行稽核和故障排除。
產業災難備援實際案例-未雨綢繆的最佳典範
從這次微軟與CrowdStrike 的事件來看,影響的範圍擴及全球,但只要做好災難備援的準備,發生重大軟體事件時,企業仍然能夠從容不迫的進行業務。藉由下面的產業實際案例,帶您掌握這些產業做好準備的秘訣:
媒體傳播業
媒體傳播業在這次的CrowdStrike 與微軟的事件受到相當大的影響,甚至出現線路斷訊無法播送新聞內容的慘況。路透社(Thomson Reuters)為全球媒體公司,透過將其災難復原(DR)流程遷移至AWS Elastic Disaster Recovery,提高了災難復原效率。在之前路透社仰賴實體數據中心的手動流程,而AWS的自動化、持續數據複製大幅縮短了復原時間目標(RTO)和復原點目標(RPO),增強了系統的冗餘性和可靠性。
軟體資訊業
Tyler Technologies是專注於公部門的軟體開發業者,由於公司快速成長,他們需要更快的災難復原方案。透過使用AWS Elastic Disaster Recovery,將復原時間從四小時縮短至僅20分鐘,提升了12倍。遷移至AWS也將資本支出轉化為運營支出,讓Tyler避免昂貴的基礎設施更新。
製造業
中衛是台灣知名的醫材用品製造商,考量到提升內部系統的彈性,選擇在AWS上運行其ERP系統 SAP 4/HANA,並且將其資料庫進行備份,讓廠房在生產的過程當中無需擔心因系統導致中斷,強化其產業韌性!
如同先前提到,天災人禍我們無法預測什麼時候會發生,但是隨時做好準備,並且將災難備援系統建立完善,就能夠達到營運不中斷的成效。您也有因意外而導致業務中斷的經驗嗎?立即聯繫博弘雲端,協助您檢測AWS雲端的架構韌性,攜手與您強化災難備援的建置,達到100%可靠性與營運連續性!