Awaria Microsoft czy CrowdStrike? Jak zapobiegać?

Poznaj nasze zalecenia w zakresie zarządzania infrastrukturą IT na przyszłość

Spis treści

Zamawiam kontakt

W piątek 19 lipca doszło do globalnej awarii systemu operacyjnego Microsoft. Przyczyną awarii nie były błędy w systemie operacyjnym lecz błąd po stronie procesu aktualizacji oprogramowania CrowdStrike.

„Globalną awarię systemu operacyjnego Microsoftu spowodował nasz błąd, to nie był cyberatak” – CrowdStrike, George Kurtz.

Wielka awaria Microsoft - CrowdStrike

CrowdStrike przypłacił swój błąd znacznym spadkiem akcji na rynku NASDAQ.

Wielka awaria Microsoft - CrowdStrike

Anatomia błędu

Błąd CrowdStrike został spowodowany przez odniesienie do wskaźnika NULL w C++, co jest częstym błędem w językach, w których pamięć dokonuje się operacji na pamięci. W większości przypadków ten typ błędu prowadzi do zawieszania się programu, nagłego zakończenia programu a w przypadku sterownika systemowego prowadzi do restartu komputera.

Problemy również z Linuxem

Choć wczorajsza globalna awaria komputerów dotyczyła głównie urządzeń z systemem Windows, okazuje się, że problem ten nie ograniczał się tylko do nich. Komputery z systemami Linux, takimi jak Debian i Rocky Linux, również padły ofiarą wadliwej aktualizacji oprogramowania CrowdStrike. W przypadku systemu Debian, niekompatybilność aktualizacji spowodowała zawieszenie serwerów, które nie były w stanie poprawnie się uruchomić. Podobna sytuacja miała miejsce z Rocky Linux po aktualizacji do wersji 9.4, gdzie błędy w oprogramowaniu CrowdStrike uniemożliwiły rozruch systemu, prowadząc do krytycznych błędów jądra systemowego.

Wielka awaria Microsoft - CrowdStrike

Czy problem można rozwiązać zdalnie?

Wbrew wielu wypowiedziom ekspertów dobrze eksploatowana infrastruktura IT w znaczący sposób może ułatwić uruchomienie komputerów, nawet w sposób zdalny. Funkcje zdalnego KVM poza pasmem w Intel vPro  umożliwiają zdalne ponowne uruchamianie i naprawianie urządzeń bez względu na to, gdzie się znajdują.

Źródło: Intel Inc.

Wielka awaria Microsoft - CrowdStrike

Czym jest technologia Intel vPro?

Technologia Intel vPro to zestaw funkcji zabezpieczeń, zarządzania i wydajności wbudowany w procesory Intel, przeznaczony głównie do zastosowań biznesowych i korporacyjnych. Intel vPro zapewnia zaawansowane możliwości zarządzania i bezpieczeństwa, które pomagają IT w monitorowaniu, utrzymaniu i ochronie urządzeń w sieci.

Technologia Intel vPro jest szczególnie ceniona w dużych przedsiębiorstwach i organizacjach, gdzie zarządzanie setkami lub tysiącami komputerów może być wyzwaniem. Dzięki funkcjom zdalnego zarządzania, zaawansowanemu bezpieczeństwu i stabilności platformy, Intel vPro pomaga IT w efektywnym zarządzaniu i ochronie infrastruktury IT.

Szczegółowy opis technologii dostępny jest pod linkiem:

https://www.intel.com/content/www/us/en/architecture-and-technology/vpro/what-is-vpro.html

Czy każdy komputer posiada Intel vPro?

Intel® AMT, dostępna jest na wszystkich urządzeniach zbudowanych na platformie Intel vPro® Enterprise for Windows. Platforma zapewnia zaawansowane narzędzia do zdalnego zarządzania IT w zakresie:

– Zdalna naprawa uszkodzonych sterowników, oprogramowania aplikacji, systemów operacyjnych (nawet tych niereagujących),

– Lepsze zarządzanie zapasami poprzez wykrywanie i monitorowanie stanu wszystkich punktów końcowych w sieci, niezależnie od ich stanu zasilania, stanu systemu operacyjnego lub typu łączności,

– Utrzymanie spójności i aktualności infrastruktury IT dzięki zdalnym, zaplanowanym automatycznym poprawkom i aktualizacjom oprogramowania,

– Zmniejszenie liczby przerw w działaniu oprogramowania, których doświadczają użytkownicy, poprzez zdalne wybudzanie systemów i łatanie ich poza godzinami pracy.

Przewodnik implementacji Intel vPro:

https://www.youtube.com/watch?v=GnN1X-7zr30

Jakie procedury IT należy wdrożyć, żeby zminimalizować ryzyko blokady infrastruktury IT w przyszłości?


Wdrożenie procedur zarządzania poprawkami (patch management)

Funkcjonalność zarządzania poprawkami i aktualizacjami (patch management) systemie eAuditor dla systemów MS Windows daje możliwość szybkiej identyfikacji zainstalowanych i niezainstalowanych poprawek i aktualizacji. Pozwala użytkownikom skutecznie i wydajnie zarządzać aktualizacjami systemowymi. Moduł patch management analizuje konfigurację systemu oraz inwentaryzuje zainstalowane poprawki. Administrator decyduje które poprawki należy zainstalować i powinien to zrobić po przetestowaniu poprawności działania poprawki na wybranej grupie komputerów.

Jednak nie wszystkie poprawki i aktualizacje „przechodzą” przez mechanizm aktualizacji systemu Windows i w związku z tym administrator nie ma nad tym procesem kontroli.

Więcej:

https://www.eauditor.eu/zdalne-zarzadzanie-poprawkami-i-aktualizacjami-patch-management/

Testowanie aktualizacji przed wdrożeniem

Aby zapobiec takim sytuacjom w przyszłości, kluczowe jest wprowadzenie procedury testowania aktualizacji na wybranej grupie komputerów przed wdrożeniem ich w całej infrastrukturze. Proces ten powinien obejmować kilka etapów. Po pierwsze, aktualizacje powinny być najpierw przetestowane w środowisku, które dokładnie odzwierciedla produkcyjne ustawienia systemów. Następnie, aktualizacje powinny być wdrożone na małą skalę w rzeczywistym środowisku, wybierając grupę reprezentatywnych komputerów użytkowników. W trakcie testów należy monitorować stabilność systemu, sprawność działania aplikacji oraz integrację z innym oprogramowaniem.

Po potwierdzeniu, że aktualizacja nie powoduje żadnych problemów, można przystąpić do jej stopniowego wdrażania w całej organizacji, nadal bacznie obserwując wszelkie nieprawidłowości.

Testowanie aktualizacji minimalizuje ryzyko wystąpienia awarii w skali globalnej i zapewnia stabilność infrastruktury IT.

Zarządzanie ryzykiem

Efektywne zarządzanie ryzykiem jest nieodłącznym elementem procesu testowania aktualizacji. Należy pamiętać, że nie wszystkie aktualizacje i poprawki powinny być wdrażane natychmiast. Niektóre z nich mogą być wadliwe lub niekompatybilne z istniejącą infrastrukturą. Dlatego istotne jest, aby w pierwszej kolejności przetestować aktualizacje w kontrolowanym środowisku i na wybranej grupie urządzeń. Takie podejście pozwala na identyfikację potencjalnych problemów bez narażania całej sieci na ryzyko. Dodatkowo, systemy kluczowe dla działalności przedsiębiorstwa, zwłaszcza te używane w środowiskach produkcyjnych, mogą wymagać odizolowania, odłączenia lub zabezpieczenia za pomocą innych środków przed wdrożeniem nowych aktualizacji. Taka ostrożność i dokładność w testowaniu oraz zarządzaniu poprawkami pozwala na minimalizację ryzyka i zapewnienie ciągłości operacyjnej.

Wdrożenie metod zdalnego podłączenia do komputera (Intel vPro / AMT)

Technologia Intel vPro /AMT pozwala na zdalne (również przez WIFI) podłączenie się do komputera, który się nie uruchamia. Podłączenie wykorzystuje mechanizm sprzętowo-programowy wbudowany w chipset komputera.

Aby skorzystać z tej możliwości muszą być spełnione dwa warunki:

  1. komputer musi być wyposażony w odpowiednią technologię
  2. technologia musi być skonfigurowana na komputerze

Więcej:

https://www.eauditor.eu/zdalne-zarzadzanie-komputerami/

Regularne kopie systemu operacyjnego wraz z możliwością szybkiego przywrócenia

Regularne kopie systemu operacyjnego pozwalają na szybkie przywrócenie systemu w przypadku awarii, minimalizując straty danych i czasu. Dzięki automatyzacji procesów tworzenia kopii zapasowych, można zapewnić ciągłość działania i ochronę przed nieprzewidzianymi zdarzeniami. Szybkie przywracanie systemu operacyjnego z kopii zapasowej jest kluczowe dla utrzymania wydajności i stabilności pracy w firmach oraz dla użytkowników indywidualnych.

Korzyści


Wdrożenie i właściwa eksploatacja w/w procedur IT przynoszą wiele korzyści, szczególnie w kontekście zarządzania awariami i utrzymania ciągłości operacyjnej.

1. Szybkie odzyskiwanie po awarii

Minimalizacja przestojów: W przypadku awarii systemu lub problemów spowodowanych aktualizacjami, szybkie przywrócenie systemu operacyjnego z kopii zapasowej pozwala na minimalizację przestojów i szybkie przywrócenie normalnego funkcjonowania.

Odzyskiwanie uszkodzonych plików systemowych: Jeśli pliki systemowe zostaną uszkodzone lub usunięte, kopie zapasowe pozwalają na ich szybkie odzyskanie.

2. Zabezpieczenie przed utratą danych

Zabezpieczenie konfiguracji i ustawień: Kopie zapasowe zawierają wszystkie ustawienia i konfiguracje systemu, co pozwala na ich szybkie przywrócenie bez konieczności rekonfigurowania systemu od podstaw.

3. Ułatwienie zarządzania aktualizacjami

Bezpieczne wdrażanie aktualizacji: Przed wprowadzeniem nowych aktualizacji lub zmian w systemie, wykonanie kopii zapasowej pozwala na szybkie wycofanie się z tych zmian w przypadku wystąpienia problemów.

Testowanie i walidacja: Możliwość szybkiego przywrócenia systemu pozwala na bardziej agresywne testowanie nowych aktualizacji i funkcji bez obawy o długotrwałe przestoje.

4. Redukcja kosztów przestojów

Oszczędność czasu: Szybkie przywrócenie systemu operacyjnego z kopii zapasowej jest znacznie szybsze niż ręczne rekonfigurowanie systemu od podstaw, co przekłada się na oszczędność czasu i kosztów.

Zminimalizowanie wpływu na użytkowników: Szybkie przywrócenie systemu ogranicza czas, w którym użytkownicy są bez dostępu do potrzebnych im zasobów i aplikacji, co minimalizuje negatywny wpływ na produktywność.

5. Podniesienie bezpieczeństwa

Ochrona przed złośliwym oprogramowaniem: W przypadku infekcji złośliwym oprogramowaniem, szybkie przywrócenie systemu operacyjnego z czystej kopii zapasowej może skutecznie usunąć zagrożenie.

Integralność systemu: Kopie zapasowe pozwalają na przywrócenie integralności systemu w przypadku ataków, które mogłyby uszkodzić lub zmienić pliki systemowe.

6. Łatwość zarządzania wieloma systemami

Centralne zarządzanie: W środowiskach, gdzie zarządzane są liczne systemy, kopie zapasowe umożliwiają centralne zarządzanie i szybką rekonfigurację wielu systemów w krótkim czasie.

Standaryzacja: Regularne kopie zapasowe mogą służyć jako baza do tworzenia standardowych konfiguracji systemów, co ułatwia utrzymanie jednolitych ustawień i polityk w całej organizacji.

Regularne wykonywanie kopii systemu operacyjnego i posiadanie planu szybkiego przywracania to kluczowe elementy strategii zarządzania IT, które mogą znacząco poprawić stabilność, bezpieczeństwo i wydajność systemów informatycznych.

Jeśli chcesz wdrożyć skuteczne rozwiązania w zakresie zarządzania infrastrukturą IT w celu zapobieżenia takim awariom skontaktuj się z nami.

2024-12-16T17:01:09+01:00