[Aktualizacja: przywrócono zasilanie] AWS ma kolejną awarię, powodującą problemy z Amazon, Slack, Imgur, Epic Games Store i nie tylko

AWS ma kolejną awarię, powodującą problemy z usługami takimi jak Amazon, Slack, Imgur, Epic Games Store i nie tylko. Przeczytaj więcej tutaj.

Wygląda na to, że ogromne obszary Internetu, w tym Slack, Imgur, Epic Games Store i inne, borykają się obecnie z trudnościami. Ogromna część Internetu opiera się na usługach Amazon Web Services, znanych jako AWS, a gdy napotykają problemy, dotyczy to także całego Internetu. Jeśli masz problemy z niektórymi swoimi ulubionymi witrynami internetowymi, na pewno nie jesteś sam. Inne witryny, których dotyczy problem, to między innymi Coinbase, Hulu i Udemy.

Ostatnio nasiliły się raporty użytkowników Detektor w dół. Najpierw, Amazon poinformował na swojej stronie statusu AWS że bada „zwiększoną liczbę błędów uruchamiania EC2 i problemów z łącznością sieciową” w swojej strefie dostępności USE1-AZ4.

„Badamy zwiększoną liczbę niepowodzeń uruchamiania EC2 i problemów z łącznością sieciową w niektórych przypadkach w pojedynczej strefie dostępności (USE1-AZ4) w regionie US-EAST-1. Ten problem nie dotyczy innych stref dostępności w regionie US-EAST-1.

Jednak od tego czasu firma potwierdziła przerwę w dostawie prądu w strefie dostępności USE1-AZ4.

„Możemy potwierdzić utratę zasilania w jednym centrum danych w jednej strefie dostępności (USE1-AZ4) w regionie US-EAST-1. Ma to wpływ na dostępność i łączność z instancjami EC2, które są częścią centrum danych, którego dotyczy problem, w strefie dostępności, której dotyczy problem. Odnotowujemy również podwyższony poziom błędów interfejsu API RunInstance w przypadku uruchomień w dotkniętej Strefie Dostępności. Łączność i zasilanie innych centrów danych w dotkniętej Strefie Dostępności lub innych Strefach Dostępności w regionie US-EAST-1 nie dotyczy ich ten problem, ale zalecamy opuszczenie strefy dostępności, której dotyczy problem (USE1-AZ4), jeśli jest to możliwe. Kontynuujemy prace nad rozwiązaniem problemu i przywróceniem zasilania w dotkniętym centrum danych.”

Takie awarie są niezwykle rzadkie i bardzo nieliczne trwają dłużej niż godzinę. Ostatnio jednak zaobserwowaliśmy kilka bardziej znaczących awari z serwisów typu Facebook, a nawet kolejna awaria Amazona właśnie w zeszłym tygodniu. Jak zauważa Amazon, firma pracuje obecnie nad przywróceniem zasilania centrum danych i firmy powinny, jeśli to możliwe, starać się opuścić dotkniętą strefę dostępności.

Aktualizacja: Amazon twierdzi, że przywrócił zasilanie większości instancji i urządzeń sieciowych

O godzinie 5:18 czasu PST Amazon potwierdził, że przywrócił zasilanie większości instancji i urządzeń sieciowych.

„Kontynuujemy postęp w przywracaniu zasilania dotkniętego centrum danych w dotkniętej strefie dostępności (USE1-AZ4) w regionie US-EAST-1. Przywróciliśmy teraz zasilanie większości instancji i urządzeń sieciowych w centrum danych, którego dotyczy problem, i zaczynamy dostrzegać pierwsze oznaki ożywienia. Klienci, którzy doświadczają problemów z łącznością lub dostępnością instancji w dotkniętej Strefie Dostępności, powinni zacząć zauważać poprawę po przywróceniu zasilania w centrum danych, którego dotyczy problem. Wskaźniki błędów interfejsu API RunInstances wracają do normalnego poziomu i pracujemy nad odzyskaniem dotkniętych instancji EC2 i woluminów EBS. Chociaż spodziewalibyśmy się ciągłej poprawy w nadchodzącej godzinie, nadal zalecamy opuszczenie Strefy Dostępności, jeśli jest to możliwe, aby złagodzić ten problem.

Aktualizacja 2: Amazon twierdzi, że zasilanie zostało przywrócone do wszystkich instancji i urządzeń sieciowych

„Przywróciliśmy teraz zasilanie wszystkich instancji i urządzeń sieciowych w centrum danych, którego dotyczy problem odnotowują poprawę w przypadku większości instancji EC2 i woluminów EBS w ramach dotkniętej dostępności Strefa. Łączność sieciowa w dotkniętej Strefie Dostępności również wróciła do normalnego poziomu. Podczas gdy wszystkie usługi zaczynają odzyskiwać znaczną poprawę, usługi, które hostowały punkty końcowe w dotkniętym centrum danych – takie jak bazy danych z pojedynczym AZ RDS, ElastiCache itp. - zauważyłby wpływ podczas wydarzenia, ale teraz zaczynamy widzieć powrót do zdrowia. Biorąc pod uwagę poziom odzyskiwania, jeśli jeszcze nie opuściłeś dotkniętej Strefy Dostępności, na tym etapie powinieneś zacząć widzieć powrót do zdrowia.”