Cloudflare vừa trở thành "ông lớn" hạ tầng web mới nhất sập hàng loạt trong vòng một tháng, khiến nhiều trang lớn như X, ChatGPT, Spotify, Canva, thậm chí cả DownDetector chuyển thành màn hình báo lỗi trong nhiều giờ.

Đây chỉ là một mắt xích trong chuỗi sự cố mà theo Mehdi Daoudi, CEO kiêm đồng sáng lập nền tảng giám sát hiệu năng Catchpoint, là “hồi chuông cảnh tỉnh” cho doanh nghiệp.

“Các công ty đang đặt toàn bộ 'trứng vào một giỏ' rồi ngạc nhiên khi có vấn đề”, Daoudi nói. “Doanh nghiệp phải tự đảm bảo hệ thống có khả năng dự phòng và chịu lỗi”.

Internet thế giới đang lệ thuộc vào số ít nhà cung cấp hạ tầng như Cloudflare, Amazon Web Services hay Microsoft Azure. Ảnh: The Verge

Sự cố diễn ra chỉ một thời gian ngắn sau khi Microsoft Azure và Amazon Web Services lần lượt gặp lỗi, khiến những phần lớn của Internet phụ thuộc vào họ bị kéo sập theo.

Cloudflare cũng đóng vai trò tương tự: vận hành CDN (mạng phân phối nội dung) để giữ website hoạt động, đồng thời cung cấp bảo vệ DDoS, DNS và nhiều dịch vụ khác.

Năm 2024, Cloudflare cho biết khoảng 20% web toàn cầu chạy qua mạng của họ. Họ cũng phục vụ 35% công ty trong danh sách Fortune 500 cùng “hàng triệu” khách hàng khác.

Hiệu năng cao và hồ sơ bảo mật tốt biến Cloudflare thành lựa chọn phổ biến trên toàn cầu. Nhưng chính sự cố lần này cho thấy ngành hạ tầng web ngày càng phụ thuộc vào số ít nhà cung cấp.

Sau sự cố AWS khiến Signal sập theo, Chủ tịch Signal Meredith Whittaker cho biết dịch vụ “không còn lựa chọn nào khác” ngoài việc chạy trên một trong các nhà cung cấp lớn. “Gần như toàn bộ tầng công nghệ hiện tại nằm trong tay 3 - 4 ông lớn”, bà viết.

Và dù doanh nghiệp không thể tránh khỏi việc phụ thuộc vào vài nhà cung cấp hạ tầng, chuỗi sự cố gần đây cho thấy họ buộc phải có phương án dự phòng. “Sự cố sẽ tiếp tục xảy ra và ngày càng thường xuyên hơn. Mức độ ảnh hưởng cũng ngày càng lan rộng”, Daoudi phân tích. “Câu hỏi là, bạn sẽ làm gì để đối phó”?

Nếu sự cố Azure và AWS được xác định liên quan đến DNS - hệ thống chuyển tên miền sang địa chỉ IP, Cloudflare xác định lỗi của mình đến từ một tập tin duy nhất.

“Theo Cloudflare, nguyên nhân gốc là một tập tin cấu hình được tạo tự động để quản lý lưu lượng độc hại”, phát ngôn viên Jackie Dutton chia sẻ. “Tập tin đã vượt quá kích thước dự kiến và kích hoạt lỗi trong hệ thống xử lý lưu lượng của nhiều dịch vụ Cloudflare”.

Nghe có vẻ vô lý khi chỉ một tập tin có thể làm chao đảo cả Internet, nhưng với quy mô của Cloudflare, điều đó hoàn toàn có thể. “Khi vận hành hạ tầng ở quy mô như Cloudflare, chỉ một lệch pha nhỏ cũng có thể gây ra hệ quả khổng lồ”, Rob Lee, Giám đốc AI & Nghiên cứu tại SANS Institute, nhận định. “Các hệ thống này được xây để chạy nhanh, nên bất kỳ thứ gì làm chậm hoặc ngưng quá trình ra quyết định đều có thể gây hiệu ứng dây chuyền. Trong môi trường hiệu năng cao, chỉ một mili-giây trễ có thể trở thành tình trạng nghẽn toàn bộ lưu lượng”.

Theo Lee, tập tin cấu hình như Cloudflare mô tả “quy định chính sách định tuyến, quyết định tải cân bằng và cách phân phối lưu lượng toàn cầu”.

Khi tập tin tăng kích thước đột ngột, “nó có thể làm chậm quá trình phân tích, tạo lỗi bộ nhớ, tranh chấp CPU hoặc gây hỏng logic trong các hệ thống phụ thuộc vào nó”.

AWS cũng từng đổ lỗi cho sai sót tự động hóa gây ra chuỗi sự cố dẫn tới đợt sập mạng gần đây, loại lỗi mà chắc chắn sẽ còn xảy ra.

“Bạn sẽ than phiền mỗi lần Cloudflare hắt hơi sao”, Daoudi đặt câu hỏi. “Hay bạn sẽ xây hệ thống của mình sao cho chống chịu được điều đó”.

(Theo The Verge)