Sự cố mạng lớn của Crowdstrike sau 1 năm- những bài học mà doanh nghiệp có thể học để cải thiện bảo mật

Bài viết thảo luận về những bài học mà các doanh nghiệp có thể học hỏi từ sự cố mạng lớn của Crowdstrike để cải thiện bảo mật.

  • 12 min read
Sự cố mạng lớn của Crowdstrike sau 1 năm- những bài học mà doanh nghiệp có thể học để cải thiện bảo mật
Bài viết thảo luận về những bài học mà các doanh nghiệp có thể học hỏi từ sự cố mạng lớn của Crowdstrike để cải thiện bảo mật.

Sự cố mạng lớn của Crowdstrike một năm sau: Các bài học mà doanh nghiệp có thể học để cải thiện bảo mật

Bạn muốn những thông tin chi tiết thông minh hơn trong hộp thư đến của mình? Đăng ký nhận bản tin hàng tuần của chúng tôi để chỉ nhận những gì quan trọng đối với các nhà lãnh đạo AI, dữ liệu và bảo mật doanh nghiệp. Đăng ký ngay

Như chúng tôi đã viết trong phân tích ban đầu về sự cố của CrowdStrike, sự cố ngày 19 tháng 7 năm 2024 là một lời nhắc nhở rõ ràng về tầm quan trọng của khả năng phục hồi trên không gian mạng. Giờ đây, một năm sau, cả CrowdStrike và ngành công nghiệp đã trải qua sự chuyển đổi đáng kể, với chất xúc tác được thúc đẩy bởi 78 phút đã thay đổi mọi thứ.

“Kỷ niệm một năm ngày 19 tháng 7 đánh dấu một khoảnh khắc tác động sâu sắc đến khách hàng và đối tác của chúng tôi và trở thành một trong những chương xác định nhất trong lịch sử của CrowdStrike,” Chủ tịch của CrowdStrike, Mike Sentonas đã viết trong một bài đăng trên blog mô tả chi tiết hành trình kéo dài một năm của công ty hướng tới khả năng phục hồi nâng cao.

Sự cố làm rung chuyển cơ sở hạ tầng toàn cầu

Các con số vẫn còn đáng lo ngại: Bản cập nhật Channel File 291 bị lỗi, được triển khai lúc 04:09 UTC và được hoàn nguyên chỉ 78 phút sau đó, đã làm hỏng 8,5 triệu hệ thống Windows trên toàn thế giới. Các ước tính bảo hiểm cho thấy thiệt hại lên tới 5,4 tỷ đô la chỉ tính riêng cho 500 công ty hàng đầu của Hoa Kỳ, với ngành hàng không bị ảnh hưởng đặc biệt nghiêm trọng với 5.078 chuyến bay bị hủy trên toàn cầu.

Steffen Schreier, phó chủ tịch cấp cao về sản phẩm và danh mục đầu tư tại Telesign, một công ty toàn cầu của Proximus, đã nắm bắt lý do tại sao sự cố này vẫn gây tiếng vang một năm sau đó: “Một năm sau, sự cố của CrowdStrike không chỉ được nhớ đến, mà còn không thể quên. Một bản cập nhật phần mềm thông thường, được triển khai mà không có ý định xấu và được thu hồi chỉ trong 78 phút, vẫn quản lý để hạ gục cơ sở hạ tầng quan trọng trên toàn thế giới. Không có vi phạm. Không có cuộc tấn công. Chỉ một lỗi nội bộ với hậu quả toàn cầu.”

Phân tích kỹ thuật của ông tiết lộ những sự thật khó chịu về cơ sở hạ tầng hiện đại: “Đó là lời cảnh tỉnh thực sự: ngay cả các công ty có các hoạt động mạnh mẽ, triển khai theo giai đoạn, khôi phục nhanh chóng, cũng không thể vượt qua các rủi ro do chính cơ sở hạ tầng cho phép phân phối nhanh chóng, gốc đám mây gây ra. Vận tốc tương tự cho phép chúng ta vận chuyển nhanh hơn cũng làm tăng tốc bán kính nổ khi có điều gì đó không ổn.”

Hiểu những gì đã xảy ra

Phân tích nguyên nhân gốc rễ của CrowdStrike đã tiết lộ một loạt các lỗi kỹ thuật: sự không phù hợp giữa các trường đầu vào trong Loại mẫu IPC của họ, thiếu kiểm tra giới hạn mảng thời gian chạy và lỗi logic trong Trình xác thực nội dung của họ. Đây không phải là trường hợp cá biệt mà là những lỗ hổng kiểm soát chất lượng cơ bản.

Merritt Baer, ​​Giám đốc an ninh sắp tới tại Enkrypt AI và cố vấn cho các công ty bao gồm Andesite, cung cấp bối cảnh quan trọng: “Sự cố của CrowdStrike thật đáng xấu hổ; nó nhắc nhở chúng ta rằng ngay cả những cửa hàng thực sự lớn, trưởng thành đôi khi cũng mắc sai lầm trong quy trình. Kết quả cụ thể này là một sự trùng hợp ở một mức độ nào đó, nhưng nó lẽ ra không bao giờ có thể xảy ra. Nó chứng tỏ rằng họ đã không thiết lập một số giao thức CI/CD cơ bản.”

Đánh giá của cô ấy rất trực tiếp nhưng công bằng: “Nếu CrowdStrike triển khai bản cập nhật trong sandbox và chỉ gửi nó vào sản xuất theo gia số như là cách làm tốt nhất, thì nó sẽ ít thảm khốc hơn, nếu có.”

Tuy nhiên, Baer cũng nhận ra phản ứng của CrowdStrike: “Chiến lược truyền thông của CrowdStrike đã thể hiện quyền sở hữu điều hành tốt. Các giám đốc điều hành phải luôn chịu trách nhiệm—đó không phải là lỗi của thực tập sinh. Nếu người vận hành cấp dưới của bạn có thể làm sai, thì đó là lỗi của tôi. Đó là lỗi của chúng ta với tư cách là một công ty.”

Trách nhiệm giải trình của lãnh đạo

George Kurtz, người sáng lập và Giám đốc điều hành của CrowdStrike, đã minh họa nguyên tắc sở hữu này. Trong một bài đăng trên LinkedIn phản ánh về ngày kỷ niệm, Kurtz đã viết: “Một năm trước, chúng tôi đã đối mặt với một khoảnh khắc thử thách mọi thứ: công nghệ, hoạt động và sự tin tưởng mà những người khác đã đặt vào chúng tôi. Với tư cách là người sáng lập và Giám đốc điều hành, tôi đã tự mình chịu trách nhiệm đó. Tôi luôn có và sẽ luôn như vậy.”

Góc nhìn của ông tiết lộ cách công ty chuyển cuộc khủng hoảng thành sự chuyển đổi: “Điều xác định chúng tôi không phải là khoảnh khắc đó; mà là mọi thứ diễn ra sau đó. Ngay từ đầu, trọng tâm của chúng tôi đã rõ ràng: xây dựng một CrowdStrike thậm chí còn mạnh mẽ hơn, dựa trên khả năng phục hồi, tính minh bạch và thực thi không ngừng. Ngôi sao phương Bắc của chúng tôi luôn là khách hàng của chúng tôi.”

CrowdStrike dồn hết sức vào một khuôn khổ Resilient by Design mới

Phản ứng của CrowdStrike tập trung vào khuôn khổ Resilient by Design của họ, mà Sentonas mô tả là vượt ra ngoài “các bản sửa lỗi nhanh chóng hoặc các cải tiến trên bề mặt.” Ba trụ cột của khuôn khổ, bao gồm các thành phần Nền tảng, Thích ứng và Liên tục, đại diện cho một cách suy nghĩ toàn diện về cách các nền tảng bảo mật nên hoạt động.

Việc triển khai chính bao gồm:

  • Tự phục hồi cảm biến: Tự động phát hiện các vòng lặp sự cố và chuyển sang chế độ an toàn
  • Hệ thống phân phối nội dung mới: Triển khai dựa trên vòng với các biện pháp bảo vệ tự động
  • Kiểm soát khách hàng nâng cao: Quản lý cập nhật chi tiết và khả năng ghim nội dung
  • Trung tâm điều hành kỹ thuật số: Cơ sở được xây dựng có mục đích để giám sát cơ sở hạ tầng toàn cầu
  • Falcon Super Lab: Thử nghiệm hàng ngàn tổ hợp OS, kernel và phần cứng

“Chúng tôi không chỉ thêm một vài tùy chọn cấu hình nội dung,” Sentonas nhấn mạnh trong blog của mình. “Chúng tôi đã suy nghĩ lại một cách cơ bản về cách khách hàng có thể tương tác và kiểm soát các nền tảng bảo mật doanh nghiệp.”

Cuộc thức tỉnh chuỗi cung ứng trên toàn ngành

Sự cố này đã buộc phải đánh giá rộng hơn về sự phụ thuộc vào nhà cung cấp. Baer trình bày bài học một cách rõ ràng: “Một bài học thực tế lớn là các nhà cung cấp của bạn là một phần của chuỗi cung ứng của bạn. Vì vậy, với tư cách là CISO, bạn nên kiểm tra rủi ro để nhận biết nó, nhưng nói một cách đơn giản, vấn đề này thuộc về phía nhà cung cấp của mô hình trách nhiệm chung. Khách hàng sẽ không kiểm soát được nó.”

Sự cố của CrowdStrike đã thay đổi vĩnh viễn việc đánh giá nhà cung cấp: “Tôi thấy các CISO và CSO hiệu quả rút ra bài học từ điều này, xung quanh các công ty mà họ muốn làm việc cùng và bảo mật mà họ nhận được khi kinh doanh cùng nhau. Tôi sẽ chỉ làm việc với những công ty mà tôi tôn trọng từ góc độ tư thế an ninh. Họ không cần phải hoàn hảo, nhưng tôi muốn biết rằng họ đang thực hiện đúng quy trình, theo thời gian.”

Sam Curry, CISO tại Zscaler, cho biết thêm, “Những gì đã xảy ra với CrowdStrike là không may, nhưng nó có thể đã xảy ra với nhiều người, vì vậy có lẽ chúng ta không đổ lỗi cho họ với lợi ích của việc nhìn lại. Điều tôi sẽ nói là thế giới đã sử dụng điều này để tập trung lại và đã đặt nhiều sự chú ý hơn vào khả năng phục hồi, và đó là một chiến thắng cho tất cả mọi người, vì mục tiêu chung của chúng ta là làm cho internet an toàn hơn và bảo mật hơn cho tất cả.”

Nhấn mạnh sự cần thiết của một mô hình bảo mật mới

Phân tích của Schreier mở rộng ra ngoài CrowdStrike đến kiến trúc bảo mật cơ bản: “Tốc độ ở quy mô phải trả giá. Mọi bản cập nhật thông thường hiện mang gánh nặng của sự cố hệ thống tiềm ẩn. Điều đó có nghĩa là nhiều hơn là kiểm tra, nó có nghĩa là các biện pháp bảo vệ được xây dựng để có khả năng phục hồi: các lớp phòng thủ, đường dẫn khôi phục tự động và các biện pháp an toàn thất bại giả định rằng đo từ xa có thể biến mất chính xác khi bạn cần nó nhất.”

Thông tin chi tiết quan trọng nhất của ông đề cập đến một kịch bản mà nhiều người chưa xem xét: “Và khi đo từ xa tắt, bạn cần các biện pháp an toàn thất bại giả định rằng khả năng hiển thị có thể biến mất.”

Điều này thể hiện một sự thay đổi mô hình. Như Schreier kết luận: “Bởi vì bảo mật ngày nay không chỉ là ngăn chặn kẻ tấn công—mà còn là đảm bảo tuyệt đối rằng hệ thống của riêng bạn không bao giờ trở thành điểm thất bại duy nhất.”

Hướng tới tương lai: AI và những thách thức trong tương lai

Baer thấy sự phát triển tiếp theo đã xuất hiện: “Kể từ khi đám mây cho phép chúng tôi xây dựng bằng cách sử dụng cơ sở hạ tầng làm mã, nhưng đặc biệt là bây giờ AI đang cho phép chúng tôi thực hiện bảo mật khác nhau, tôi đang xem xét cách các quyết định cơ sở hạ tầng được phân lớp với quyền tự chủ từ con người và AI. Chúng ta có thể và nên phân lớp trên lý luận cũng như giảm thiểu rủi ro hiệu quả cho các quy trình như cập nhật bắt buộc, đặc biệt là ở cấp độ đặc quyền cao.”

Các sáng kiến ​​hướng tới tương lai của CrowdStrike bao gồm:

  • Tuyển dụng một Giám đốc khả năng phục hồi báo cáo trực tiếp cho Giám đốc điều hành
  • Dự án Ascent, khám phá các khả năng vượt ra ngoài không gian kernel
  • Hợp tác với Microsoft trên Nền tảng bảo mật điểm cuối Windows
  • Chứng nhận ISO 22301 cho quản lý tính liên tục kinh doanh

Một hệ sinh thái mạnh mẽ hơn

Một năm sau, sự chuyển đổi là rõ ràng. Kurtz phản ánh: “Chúng tôi là một công ty mạnh mẽ hơn ngày hôm nay so với một năm trước. Công việc vẫn tiếp tục. Sứ mệnh vẫn tiếp tục. Và chúng tôi đang tiến lên: mạnh mẽ hơn, thông minh hơn và thậm chí cam kết hơn bao giờ hết.”

Để ghi nhận công lao của mình, Kurtz cũng thừa nhận những người đã sát cánh cùng công ty: “Đối với mọi khách hàng đã ở lại với chúng tôi, ngay cả khi điều đó khó khăn, cảm ơn bạn vì sự tin tưởng lâu dài của bạn. Đối với các đối tác đáng kinh ngạc của chúng tôi, những người đã sát cánh cùng chúng tôi và xắn tay áo lên, cảm ơn bạn vì đã là gia đình mở rộng của chúng tôi.”

Di sản của sự cố vượt ra ngoài CrowdStrike. Các tổ chức hiện thực hiện triển khai theo giai đoạn, duy trì khả năng ghi đè thủ công và—quan trọng nhất—lên kế hoạch cho khi chính các công cụ bảo mật có thể bị lỗi. Mối quan hệ với nhà cung cấp được đánh giá với sự chặt chẽ mới, nhận ra rằng trong cơ sở hạ tầng kết nối với nhau của chúng ta, mọi thành phần đều rất quan trọng.

Như Sentonas thừa nhận: “Công việc này chưa hoàn thành và sẽ không bao giờ hoàn thành. Khả năng phục hồi không phải là một cột mốc; đó là một kỷ luật đòi hỏi sự cam kết và phát triển liên tục.” Sự cố CrowdStrike ngày 19 tháng 7 năm 2024 sẽ được ghi nhớ không chỉ vì sự gián đoạn mà nó gây ra mà còn vì đã xúc tác một sự phát triển trên toàn ngành hướng tới khả năng phục hồi thực sự.

Khi đối mặt với thách thức lớn nhất của mình, CrowdStrike và hệ sinh thái bảo mật rộng lớn hơn đã nổi lên với sự hiểu biết sâu sắc hơn: bảo vệ chống lại các mối đe dọa có nghĩa là đảm bảo rằng chính những người bảo vệ không thể gây hại. Bài học đó, được học qua 78 phút khó khăn và một năm chuyển đổi, có thể chứng tỏ là di sản quý giá nhất của sự cố.

One Year After CrowdStrike How a 78-Minute Outage Reshaped Enterprise Cybersecurity Được tạo bằng Imagen

Recommended for You

Google DeepMind làm nên lịch sử AI với chiến thắng huy chương vàng tại cuộc thi toán khó khăn nhất thế giới

Google DeepMind làm nên lịch sử AI với chiến thắng huy chương vàng tại cuộc thi toán khó khăn nhất thế giới

Bài viết mô tả Google DeepMind làm nên lịch sử AI với chiến thắng huy chương vàng tại cuộc thi toán khó khăn nhất thế giới.

5 câu hỏi quan trọng mà nhà phát triển của bạn nên hỏi về MCP

5 câu hỏi quan trọng mà nhà phát triển của bạn nên hỏi về MCP

Bài viết thảo luận về 5 câu hỏi quan trọng mà các nhà phát triển nên hỏi về MCP (Marketplace Connect Platform) để hiểu rõ hơn về nền tảng này và cách tận dụng nó một cách hiệu quả.