Awaria na globalną skalę - czego uczy nas incydent CrowdStrike?

Katgoria: BEZPIECZEŃSTWO IT / Utworzono: 13 sierpień 2024

Incydent z Crowd Strike uwidocznił kruchość globalnych systemów IT i znaczenie solidnych procedur aktualizacji oprogramowania. „By minimalizować skutki ewentualnych nieprzewidzianych błędów administrator powinien mieć pełną kontrolę nad całym procesem aktualizacji” wskazuje ekspert Stormshield. Podpowiada również rozwiązanie, które warto stosować na tym etapie.

REKLAMA

"Niebieski Ekran Śmierci" (BSOD), czyli pokłosie błędu w oprogramowaniu CrowdStrike, wedle szacunków pojawił się na ekranach około 8,5 miliona urządzeń na całym świecie. Lotnictwo, bankowość czy ochrona zdrowia – problemy dotknęły blisko 60 proc. firm z listy Fortune 500 prowadzących działalność w wielu kluczowych branżach. Tak duża skala była związana z popularnością tych rozwiązań, w szczególności w USA oraz jednoczesną, automatyczną aktualizacją CrowdStrike i systemu MS Windows. Według szacunków straty będące konsekwencją zamieszania liczone są w miliardach dolarów.

Incydent z CrowdStrike dostarczył nam cennych lekcji na przyszłość, wskazując na potrzebę ciągłego doskonalenia procedur bezpieczeństwa i gotowości na potencjalne zagrożenia, których źródłem niekoniecznie muszą być wrogie działania – mówi Aleksander Kostuch, inżynier Stormshield, producenta rozwiązań z obszaru bezpieczeństwa IT.

Nim producent dostarczył rozwiązań, pojawiły się pierwsze metody obejścia problemu. Dla korporacji, na masową skalę korzystających z rozwiązań w których wystąpił błąd, największym wyzwaniem był bezpośredni dostęp do uszkodzonych maszyn.

Naprawa wymagała ręcznej interwencji, w tym uruchamiania komputerów w trybie awaryjnym i usuwania określonych plików systemowych. Helpdesk nie był w stanie zareagować na problem zdalnie, ponieważ do zawieszonego komputera trzeba było podejść, a w większości międzynarodowych korporacji obsługa IT funkcjonuje w formie outsourcingu prowadzonego często z innego kraju. Na osobistą wizytę serwisanta trzeba poczekać, dlatego efektem awarii był długotrwały brak dostępu do usług i gigantyczne straty. Cały proces był po prostu czasochłonny, co dodatkowo komplikowało sytuację w firmach korzystających z szyfrowania dysków BitLocker – dodaje ekspert Stormshield.

Aktualizacje są kluczowe, ale testuj je w środowisku testowym

Fundamentalną zasadą jaką powinno się kierować, z myślą o ograniczaniu skutków podobnych incydentów, jest pełna kontrola administratora sieci nad każdą kluczową aktualizacją. Powinna ona obejmować jego indywidualną decyzję o aktualizacji oprogramowania typu EDR lub oprogramowania układowego firmware na urządzeniach. Oczywiście z myślą o zachowaniu maksymalnego bezpieczeństwa, prawidłowa polityka w obszarze aktualizacji ma zasadnicze znaczenie, lecz jednocześnie opisywany przykład pokazuje, że diabeł może tkwić w szczegółach.

Dbajmy o aktualizacje, ale jednocześnie przestrzegajmy zasady, że nowe wersje oprogramowania nie powinny być automatycznie wdrażane na wszystkich urządzeniach. Administrator powinien je najpierw przetestować w grupie pilotażowej. Ustanowienie grupy testowej to jedna z najlepszych praktyk jaką możemy zastosować z myślą o ograniczania skutków ewentualnych błędów. Wdrażamy aktualizację w zamkniętym środowisku i jeśli po zdefiniowanym zgodnie z praktykami czasie pojawi się niebieski ekran lub inny problem systemowy, można wstrzymać masową aktualizację, a błąd nie sparaliżuje pracy całej organizacji – wyjaśnia Aleksander Kostuch.

Ekspert radzi jak zorganizować środowisko testowe aktualizacji oprogramowania

Środowisko testowe jest odizolowane od środowiska produkcyjnego, aby ewentualne problemy nie wpływały na resztę infrastruktury.

Ustal grupę urządzeń, które będą pierwszymi odbiorcami aktualizacji, wybierając urządzenia reprezentatywne dla różnych typów sprzętu i konfiguracji, aby jak najlepiej odwzorować środowisko produkcyjne. Zasadnym jest, aby w grupie pilotażowej znalazły się zarówno starsze, jak i nowsze urządzenia, co pozwala zidentyfikować potencjalne problemy w szerszym zakresie.
W środowisku testowym warto symulować rzeczywiste obciążenia i typowe scenariusze użytkowania, aby sprawdzić, jak aktualizacja wpływa na wydajność i stabilność systemu. Symulacje mogą obejmować różne formy aktywności, jak praca z dużymi plikami, intensywna komunikacja sieciowa, a także testy funkcjonalności specyficzne dla danej organizacji.
Zbieraj szczegółowe logi, które pozwolą na szybką identyfikację i diagnozę problemów, automatyczne raportowanie incydentów czy inne błędy krytyczne. Pomoże to w szybkim reagowaniu.
Definiuj procedury i narzędzia pozwalające na szybkie wycofanie problematycznych aktualizacji w środowisku testowym, zanim zostaną wdrożone na większą skalę. To może obejmować tworzenie punktów przywracania systemu, backupów, korzystania z zapasowych partycji lub snapshotów maszyn wirtualnych przed wdrożeniem aktualizacji.
Oprócz standardowych testów, warto przetestować scenariusze awaryjne, takie jak przywracanie systemu po awarii, restart systemu po BSOD czy odtwarzanie danych z backupu. Umożliwia to przygotowanie się na najgorsze scenariusze.
Zalecane jest dokładnie udokumentowanie potencjalnego ryzyka i metody postępowania w przypadku problemów.
Przed każdą aktualizacją dobrze jest dokonać ocenę ryzyka, analizując aspekty krytyczności aktualizacji i jej wpływ na organizację, a także potencjalne zagrożenia i korzyści związane z wdrożeniem.
Dodatkowo w przypadku aktualizacji o wysokim ryzyku, warto z wyprzedzeniem poinformować użytkowników i właścicieli usług oraz zadbać o wsparcie techniczne w okresie przejściowym.

Opisany model należy traktować jako idealny. Najbliższe funkcjonowania zgodnie z nim są banki i instytucje finansowe. Warto zwrócić uwagę, że oprogramowanie umożliwia wybór pomiędzy ręczną i kontrolowaną aktualizacją, a w pełni automatyczną. Tak jest w przypadku większości programów EDR, podobnych do CrowdStrike Falcon czy Stormshield Endpoint Security, które oferują możliwość aktualizacji ręcznych. Choć korzystanie z tej opcji wymaga większego zaangażowania, to może przynieść wiele korzyści – podsumowuje Aleksander Kostuch.

Zaplanuj jak będziesz działać w trakcie awarii

Eksperci zwracają uwagę na znaczenie procesów i dokumentów dotyczących planów ciągłości działania (BCP-business continuity plan) oraz procedur odzyskiwania dostępu do danych i systemów IT po awarii (DR-disaster recovery). Och przyczyną, oprócz incydentów w obszarze cyfrowym mogą być klęski żywiołowe, pożary czy akty wandalizmu.

Wcześniejsze przygotowanie planów ciągłości działania ma dla organizacji krytyczne znaczenie. Plany określają, w jaki sposób firma będzie działać w sytuacji kryzysowej, nawet jeśli będzie musiała przenieść się do innej lokalizacji. Oczywiście, samo przygotowanie planów nie wystarczy, należy je cyklicznie testować i dostosowywać do aktualnych warunków funkcjonowania organizacji – zwraca uwagę Paweł Śmigielski, country manager Stormshield w Polsce.

Źródło: Dagma

Najnowsze wiadomości

Customer-specific AI: dlaczego w 2026 roku to ona przesądza o realnym wpływie AI na biznes

W 2026 roku sztuczna inteligencja przestaje być ciekawostką technologiczną, a zaczyna być rozliczana z realnego wpływu na biznes. Organizacje oczekują dziś decyzji, którym można zaufać, procesów działających przewidywalnie oraz doświadczeń klientów, które są spójne w skali. W tym kontekście coraz większe znaczenie zyskuje customer-specific AI - podejście, w którym inteligencja jest osadzona w danych, procesach i regułach konkretnej firmy, a nie oparta na generycznych, uśrednionych modelach.

Czytaj całość

PROMAG S.A. rozpoczyna wdrożenie systemu ERP IFS Cloud we współpracy z L-Systems

PROMAG S.A., lider w obszarze intralogistyki, rozpoczął wdrożenie systemu ERP IFS Cloud, który ma wesprzeć dalszy rozwój firmy oraz integrację kluczowych procesów biznesowych. Projekt realizowany jest we współpracy z firmą L-Systems i obejmuje m.in. obszary finansów, produkcji, logistyki, projektów oraz serwisu, odpowiadając na rosnącą skalę i złożoność realizowanych przedsięwzięć.

Czytaj całość

SkyAlyne stawia na IFS dla utrzymania floty RCAF

SkyAlyne, główny wykonawca programu Future Aircrew Training (FAcT), wybrał IFS Cloud for Aviation Maintenance jako cyfrową platformę do obsługi technicznej lotnictwa i zarządzania majątkiem. Wdrożenie ma zapewnić wgląd w czasie rzeczywistym w utrzymanie floty, zasoby i zgodność, ograniczyć przestoje oraz zwiększyć dostępność samolotów szkoleniowych RCAF w skali całego kraju. To ważny krok w modernizacji kanadyjskiego systemu szkolenia załóg lotniczych.

Czytaj całość

Wykorzystanie AI w firmach rośnie, ale wolniej, niż oczekiwano. Towarzyszy temu sporo rozczarowań

Wykorzystanie sztucznej inteligencji w firmach rośnie, ale tempo realnych wdrożeń pozostaje znacznie wolniejsze od wcześniejszych oczekiwań rynku. Dane pokazują, że z rozwiązań AI korzysta dziś wciąż niewiele przedsiębiorstw, a menedżerowie coraz częściej wskazują na bariery regulacyjne, koszty oraz brak powtarzalnych efektów biznesowych. W praktyce technologia jest testowana głównie w wybranych obszarach, a kluczowe decyzje nadal pozostają po stronie człowieka. Również w firmach, które wdrożyły AI, nierzadko towarzyszą temu rozczarowania.

Czytaj całość

Europejski przemysł cyfryzuje się zbyt wolno – ERP, chmura i AI stają się koniecznością

Europejski przemysł średniej wielkości wie, że cyfryzacja jest koniecznością, ale wciąż nie nadąża za tempem zmian. Ponad 60% firm ocenia swoje postępy w transformacji cyfrowej jako zbyt wolne, mimo rosnącej presji konkurencyjnej, regulacyjnej i kosztowej. Raport Forterro pokazuje wyraźną lukę między świadomością potrzeby inwestycji w chmurę, ERP i AI a realną zdolnością do ich wdrożenia – ograniczaną przez braki kompetencyjne, budżety i gotowość organizacyjną.

Czytaj całość

RAPORT ERP

Katalog rozwiązań IT

Katalog firm

Najnowsze artykuły

5 pułapek zarządzania zmianą, które mogą wykoleić transformację cyfrową i wdrożenie ERP

Dlaczego jedne wdrożenia ERP dowożą korzyści, a inne kończą się frustracją, obejściami w Excelu i spadkiem zaufania do systemu? Najczęściej decyduje nie technologia, lecz to, jak organizacja prowadzi zmianę: czy liderzy biorą odpowiedzialność za decyzje czy tempo jest dopasowane do zdolności absorpcji oraz czy ludzie dostają klarowność ról i realne kompetencje. Do tego dochodzi pytanie: co po go-live - stabilizacja czy chaos w firmie? Poniżej znajdziesz 5 pułapek, które najczęściej wykolejają transformację i praktyczne sposoby, jak im zapobiec.

Czytaj całość

SAP vs Oracle vs Microsoft: jak naprawdę wygląda chmura i sztuczna inteligencja w ERP

Wybór systemu ERP w erze chmury i sztucznej inteligencji to decyzja, która determinuje sposób działania organizacji na lata — a często także jej zdolność do skalowania, adaptacji i realnej transformacji cyfrowej. SAP, Oracle i Microsoft oferują dziś rozwiązania, które na pierwszy rzut oka wyglądają podobnie, lecz w praktyce reprezentują zupełnie odmienne podejścia do chmury, AI i zarządzania zmianą. Ten artykuł pokazuje, gdzie kończą się deklaracje, a zaczynają realne konsekwencje biznesowe wyboru ERP.

Czytaj całość

Transformacja cyfrowa z perspektywy CFO: 5 rzeczy, które przesądzają o sukcesie (albo o kosztownej porażce)

Transformacja cyfrowa w finansach często zaczyna się od pytania o ERP, ale w praktyce rzadko sprowadza się wyłącznie do wyboru systemu. Dla CFO kluczowe jest nie tylko „czy robimy pełną wymianę ERP”, lecz także jak policzyć ryzyko operacyjne po uruchomieniu, ocenić wpływ modelu chmurowego na koszty OPEX oraz utrzymać audytowalność i kontrolę wewnętrzną w nowym modelu działania firmy.

Czytaj całość

Agentic AI rewolucjonizuje HR i doświadczenia pracowników

Agentic AI zmienia HR: zamiast odpowiadać na pytania, samodzielnie realizuje zadania, koordynuje procesy i podejmuje decyzje zgodnie z polityką firmy. To przełom porównywalny z transformacją CRM – teraz dotyczy doświadczenia pracownika. Zyskują HR managerowie, CIO i CEO: mniej operacji, więcej strategii. W artykule wyjaśniamy, jak ta technologia redefiniuje rolę HR i daje organizacjom przewagę, której nie da się łatwo nadrobić.

Czytaj całość

Composable ERP: Przewodnik po nowoczesnej architekturze biznesowej

Czy Twój system ERP nadąża za tempem zmian rynkowych, czy stał się cyfrową kotwicą hamującą rozwój? W dobie nieciągłości biznesowej tradycyjne monolity ustępują miejsca elastycznej architekturze Composable ERP. To rewolucyjne podejście pozwala budować środowisko IT z niezależnych modułów (PBC) niczym z klocków, zapewniając zwinność nieosiągalną dla systemów z przeszłości. W tym raporcie odkryjesz, jak uniknąć pułapki długu technologicznego, poznasz strategie liderów rynku (od SAP po MACH Alliance) i wyciągniesz lekcje z kosztownych błędów gigantów takich jak Ulta Beauty. To Twój strategiczny przewodnik po transformacji z cyfrowego "betonu" w adaptacyjną "plastelinę".

Czytaj całość