Поредицата от три есенни прекъсвания в рамките на четири седмици подчертава как конфигурационните и грешките в метаданните в облака се превръщат в „новите дърпания на шалтера“.
Прекъсванията в AWS, Microsoft Azure и най-скоро в Cloudflare бяха предизвикани от различни технически фактори. Въпреки това анализите разкриват, че и трите произтичат от откази в собствената основна инфраструктура на доставчиците.
И в трите случая инцидентите не бяха причинени от проблеми с капацитета вследствие на рязък скок на сезонния трафик, нито бяха DDoS атаки, целящи да претоварят мрежите. Те се оказаха фини вътрешни софтуерни и конфигурационни дефекти в системите, които управляват облачната среда.
„Скорошните прекъсвания не означават, че облакът е счупен, а че сме изградили изключително сложна система и сме концентрирали голяма част от нея в ръцете на малък брой доставчици“, казва Джаввад Малик, старши CISO съветник в платформата за обучение по киберсигурност KnowBe4.
Кръгова зависимост
Според облачния експерт Маюр Упадхяя, главен изпълнителен директор на APIContext – компания за наблюдение и управление на API – това, което наблюдаваме днес, е резултат от пресичането на три значими тенденции: екстремна автоматизация, значително по-интензивен машинно генериран трафик и изключително висока концентрация на инфраструктура сред малък брой доставчици.
„Интернетът тихо се превърна в машина за кръгови зависимости: облачните платформи зависят от DNS, DNS и контролните равнища работят върху същите облаци, идентичността и сигурността зависят и от двете, а CDN мрежите стоят върху цялата повърхност“, казва той.
„Когато нещо дребно се обърка в един от тези слоеве, радиусът на пораженията по подразбиране вече е глобален. Времевото съвпадение може да е случайно, но фундаменталните сили са системни“, допълва той.
Обяснение на прекъсването в Cloudflare
Прекъсването в Cloudflare беше причинено от конфигурационен файл, използван за управление на трафик, обявен като заплашителен. Този файл е нараснал много повече от очакваното и е предизвикал срив в софтуерните системи, които обработват основния мрежов трафик за множество услуги.
„Конфигурационен файл, който надхвърли очаквания максимален размер, предизвика срив в софтуерната система, която обработва трафика за редица наши услуги“, посочват от Cloudflare.
Като глобална мрежова платформа, Cloudflare засегна множество високопрофилни сайтове, включително X, ChatGPT, IKEA и Canva.
Прекъсването в AWS
Прекъсването във вторник последва две други от големите облачни доставчици. Първото беше в AWS на 20 октомври и беше концентрирано в региона US-EAST-1 (Вирджиния), като засегна широк спектър от услуги и компании по света.
Коренната причина беше идентифицирана като вътрешен проблем в DNS системата, който се разпространи извън рамките на един регион и доведе до прекъсване на множество външни услуги, включително Signal, Snapchat, Fortnite, Starbucks, Reddit, Coinbase, Ring, Amazon, Amazon Alexa, Apple TV и Apple Music.
Прекъсването в Microsoft Azure
По-малко от две седмици по-късно, на 29 октомври, Microsoft Azure претърпя глобално прекъсване, предизвикано от „неволна конфигурационна промяна“ в CDN услугата.
Прекъсването засегна редица собствени услуги на Microsoft, включително 365 Copilot, както и клиенти на Azure като Minecraft, няколко авиокомпании, платежни системи и множество други услуги, хоствани в Azure.
Какво общо имат прекъсванията в Azure, AWS и Cloudflare
В два от трите случая (Azure и Cloudflare) коренната причина беше конфигурационен или метаданен проблем, а не хардуерен дефект или DDoS атака.
Според Малик от KnowBe4 конфигурационните и грешките в метаданните вече се превръщат в „новите спирания на тока“.
Той предупреждава: „Един грешен ред на грешното място може да се разпространи през цели региони.“
И в трите случая сривът се разпространи и към множество други услуги, тъй като толкова много компании зависят от една и съща инфраструктура. Според Упадхяя това е ключовата връзка, подчертаваща колко голям риск идва от собствената ни автоматизация.
„И трите бяха задействани от промени, които изглеждаха напълно валидни вътре в силно автоматизирани системи, но се разраснаха бързо, защото тези системи стоят в основата на множество други услуги“, обяснява той.
Има ли сезонният товар значение?
Въпреки че трите прекъсвания се случиха през есента, сезонният предпразничен трафик, новият трафик, генериран от ИИ, и увеличените API заявки не са посочени като сериозен фактор за безпокойство.
Въпреки това Найджъл Дъглас, ръководител „Връзки с разработчици“ в Cloudsmith, отбелязва, че тези постоянно високо натоварени среди могат да действат като перманентни стрес тестове.
„Точно този стрес често е това, което превръща малка латентна конфигурационна грешка в глобално прекъсване. Бъг, който кара система да се срива само когато надвиши определен товар или конфигурационен праг, се разкрива и става разрушителен при пикови условия.“
Може би истинската история не е, че тези есенни прекъсвания са се случили, а че устойчивостта вече не догонва мащаба. Облачните мрежи все повече приличат на електропреносни системи с високо напрежение – взаимосвързани, оптимизирани, автоматизирани и уязвими към непредвидени верижни реакции.
За в бъдеще устойчивостта вероятно ще изисква мултиоблачни стратегии, офлайн резервни системи и инфраструктура, която може да се деградира поетапно, вместо катастрофално.









