В понеделник облачните услуги на Amazon Web Services (AWS) преживяха масов срив, който остави хиляди приложения и уебсайтове недостъпни за часове. Сред засегнатите платформи бяха Signal, Snapchat, Fortnite, Reddit, Amazon, Ring, Apple Music и множество други, като проблемите бяха регистрирани от десетки хиляди потребители по целия свят. Според експерти и вътрешни наблюдатели кризата е усложнена от продължаващите съкращения в компанията – над 27 000 служители, включително опитни инженери на ключови позиции, напуснаха от 2022 г. насам. Тази загуба на „племенни знания“ затруднява справянето с мащабни инциденти и увеличава времето за реакция при аварии.
Причина за сривa
AWS обяви, че първоначалната причина за недостъпността на услугите е свързана с проблеми с мрежовата свързаност в региона US-EAST-1 в Северна Вирджиния, включително грешки при разрешаването на DNS заявки. DNS (Domain Name System) превръща човеко-разбираеми домейни в машинно-четими IP адреси, като всяка грешка в системата блокира достъпа до сървъра и съответно до услугата.
Въпреки че подобни сривове не са новост за AWS – през 2021 и 2023 г. компанията също преживя сериозни прекъсвания поради DNS проблеми – комбинацията от технически причини и недостиг на опитни инженери усложни управлението на инцидента.
Ролята на съкращенията
От 2022 г. Amazon е принудена да съкрати над 27 000 служители, включително редица senior инженери и principal-level експерти. Тези позиции обикновено се заемат от служители с дългогодишен опит, които вземат ключови архитектурни решения и ръководят сложни проекти. Липсата на тези кадри води до забавяне на идентифицирането на коренната причина за проблемите и до забавено уведомяване на клиентите за случващото се.
Експерти като Кори Куин, chief cloud economist в The Duckbill Group, коментират, че именно липсата на „трайбъл знания“ – опит и практики, натрупани при предишни мащабни сривове – е причината AWS да изпита затруднения при управлението на понеделнишкия инцидент. Дори детайли, които могат да изглеждат второстепенни, се оказват критични при диагностицирането на DNS проблеми.
Влияние върху бизнеса
Сривът на AWS засегна около 1000 организации и причини значителни забавяния и увеличена латентност в мрежовите връзки. Въпреки че услугите вече са възстановени, анализаторите предупреждават, че последствията за доверие и оперативна сигурност могат да бъдат дългосрочни. Много компании разчитат на AWS за критична инфраструктура, а всяко прекъсване може да доведе до значителни финансови и оперативни загуби.
Понеделнишкият срив на AWS показва колко уязвими са глобалните облачни услуги дори при технологичен гигант като Amazon. Комбинацията от технически проблеми и недостиг на опитен персонал подчертава значението на стабилна вътрешна експертиза и планиране на непрекъснатостта на услугите. Въпреки че AWS е успял да възстанови платформите си, случайът служи като предупреждение за всички организации, които разчитат на облачни инфраструктури за критични бизнес процеси.









