[Оновлення: живлення відновлено] У AWS знову стався збій, що спричинило проблеми з Amazon, Slack, Imgur, Epic Games Store тощо

У AWS знову стався збій, що спричинило проблеми з такими сервісами, як Amazon, Slack, Imgur, Epic Games Store тощо. Детальніше тут.

Здається, величезні частини Інтернету зараз відчувають проблеми, включаючи Slack, Imgur, Epic Games Store тощо. Величезні частини Інтернету залежать від веб-сервісів Amazon, відомих як AWS, і коли вони стикаються з проблемами, це стосується всього Інтернету. Якщо у вас виникають проблеми з деякими з ваших улюблених веб-сайтів, ви точно не самотні. Інші постраждалі сайти включають Coinbase, Hulu та Udemy.

Нещодавно зросла кількість звітів користувачів Детектор вниз. По-перше, Amazon повідомляє на своїй сторінці статусу AWS що він досліджував «збільшення кількості збоїв запуску EC2 і проблем з підключенням до мережі» в зоні доступності USE1-AZ4.

«Ми досліджуємо частіші збої запуску EC2 і проблеми з мережевим підключенням для деяких примірників в одній зоні доступності (USE1-AZ4) в регіоні US-EAST-1. Ця проблема не стосується інших зон доступності в регіоні US-EAST-1».

Однак з тих пір компанія підтвердила відключення електроенергії в зоні доступності USE1-AZ4.

«Ми можемо підтвердити втрату живлення в одному центрі обробки даних у межах однієї зони доступності (USE1-AZ4) у регіоні US-EAST-1. Це впливає на доступність і підключення до екземплярів EC2, які є частиною ураженого центру обробки даних у межах ураженої зони доступності. Ми також стикаємося з підвищеною частотою помилок RunInstance API для запусків у відповідній зоні доступності. Підключення та живлення до інших центрів обробки даних у зоні доступності, що зазнала впливу, або інших зонах доступності в регіоні US-EAST-1 ця проблема не стосується, але ми рекомендуємо відмовитися від ураженої зони доступності (USE1-AZ4), якщо ви можете це зробити. Ми продовжуємо працювати над вирішенням проблеми та відновленням живлення в ураженому центрі обробки даних».

Подібні збої трапляються надзвичайно рідко, і лише деякі з них тривають більше години. Хоча нещодавно ми спостерігали деякі більш значні збої від лайків Facebook, і навіть ще один збій роботи Amazon лише минулого тижня. Як зазначає Amazon, наразі компанія працює над відновленням живлення центру обробки даних, і компаніям слід спробувати вийти з ураженої зони доступності, якщо це можливо.


Оновлення: Amazon каже, що зараз відновлено живлення більшості екземплярів і мережевих пристроїв

О 5:18 за тихоокеанським стандартним часом Amazon підтвердив, що відновив живлення більшості екземплярів і мережевих пристроїв.

«Ми продовжуємо досягати прогресу у відновленні електропостачання постраждалого центру обробки даних у зоні доступності (USE1-AZ4) у регіоні US-EAST-1. Зараз ми відновили живлення більшості екземплярів і мережевих пристроїв у постраждалому центрі обробки даних і починаємо спостерігати перші ознаки відновлення. Клієнти, у яких виникають проблеми з підключенням або доступністю екземплярів у зоні доступності, ураженої проблемою, мають відчути деяке відновлення після відновлення живлення ураженого центру обробки даних. Частота помилок API RunInstances повертається до нормального рівня, і ми працюємо над відновленням уражених екземплярів EC2 і томів EBS. Хоча ми очікуємо продовження покращення протягом найближчої години, ми все одно рекомендуємо відмовитися від зони доступності, якщо ви можете це зробити, щоб пом’якшити цю проблему».


Оновлення 2: Amazon повідомляє, що живлення всіх примірників і мережевих пристроїв відновлено

«Тепер ми відновили живлення всіх екземплярів і мережевих пристроїв у постраждалому центрі обробки даних спостерігають відновлення для більшості екземплярів EC2 і томів EBS у межах ураженої доступності зона. З’єднання з мережею в ураженій зоні доступності також повернулося до нормального рівня. Незважаючи на те, що всі служби починають відновлюватися, служби, які розміщували кінцеві точки в ураженому центрі обробки даних, наприклад бази даних RDS з єдиною AZ, ElastiCache тощо. - помітили б вплив під час події, але зараз починають помічати відновлення. Враховуючи рівень відновлення, якщо ви ще не вийшли з ураженої зони доступності, ви повинні почати бачити відновлення на цьому етапі».