Amazon: lỗi tự động hóa gây ra sự cố lớn làm AWS sập

Amazon công bố báo cáo chi tiết về sự cố ngày 20/10 khiến nhiều website, dịch vụ, ứng dụng và trò chơi bị gián đoạn. Nguyên nhân bắt nguồn từ lỗi trong phần mềm tự động hóa DynamoDB liên quan đến quản lý DNS.

Amazon vừa công bố một báo cáo khá dài về sự cố xảy ra vào ngày 20 tháng 10, khiến hàng loạt trang web, dịch vụ, ứng dụng và trò chơi bị gián đoạn. Mọi chuyện bắt đầu từ một lỗi trong phần mềm tự động hóa DynamoDB, nơi khách hàng AWS lưu trữ dữ liệu, và lỗi này sau đó kích hoạt thêm các vấn đề ở những hệ thống khác phụ thuộc vào phần mềm đó.

Theo Amazon, DynamoDB duy trì hàng trăm nghìn bản ghi DNS và được thiết kế để có thể tự động sửa những sự cố. Nhưng vào ngày 20/10, hệ thống quản lý DNS của DynamoDB gặp lỗi khiến một bản ghi DNS cho các trung tâm dữ liệu ở Bắc Virginia trở nên trống. DynamoDB lẽ ra phải tự khắc phục, nhưng đã không làm được, nên Amazon buộc phải can thiệp sửa chữa thủ công. Trong thời gian xảy ra sự cố, mọi hệ thống cần kết nối tới DynamoDB đều không thể kết nối và gặp lỗi DNS, bao gồm cả khách hàng sử dụng dịch vụ đám mây của họ. Khi đó cảm giác như một nửa Internet bị gián đoạn.

Những trang web và dịch vụ bị ảnh hưởng gồm Amazon, thiết bị Amazon Alexa, Bank of America, Snapchat, Canva, Reddit, Apple Music, Apple TV, Lyft, Duolingo, Fortnite, Disney+, Venmo, Doordash, Hulu, PlayStation và thậm chí Eight Sleep — thương hiệu có những chiếc giường kết nối internet để điều chỉnh nhiệt độ và độ nghiêng. Một số dịch vụ chỉ phản hồi chậm, trong khi một số khác hoàn toàn không truy cập được.

“Chúng tôi xin lỗi về ảnh hưởng mà sự kiện này đã gây ra cho khách hàng. Mặc dù chúng tôi có hồ sơ vận hành dịch vụ với mức độ sẵn sàng cao, chúng tôi hiểu dịch vụ của mình rất quan trọng đối với khách hàng, ứng dụng và người dùng cuối của họ, cũng như đối với hoạt động kinh doanh. Chúng tôi biết sự kiện này đã ảnh hưởng lớn đến nhiều khách hàng. Chúng tôi sẽ làm mọi thứ có thể để rút kinh nghiệm từ sự kiện này và dùng những bài học đó để cải thiện độ sẵn sàng hơn nữa,” Amazon cho biết trong một tuyên bố.

© 2025 Yahoo. Bảo lưu mọi quyền.

Nguồn: https://www.engadget.com/big-tech/amazon-says-automation-bug-caused-massive-aws-outage-133028856.html?src=rss

Để lại một bình luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *