Awaria Microsoft czy CrowdStrike? Jak zapobiegać?
Poznaj nasze zalecenia w zakresie zarządzania infrastrukturą IT na przyszłość
W piątek 19 lipca doszło do globalnej awarii systemu operacyjnego Microsoft. Przyczyną awarii nie były błędy w systemie operacyjnym lecz błąd po stronie procesu aktualizacji oprogramowania CrowdStrike.
„Globalną awarię systemu operacyjnego Microsoftu spowodował nasz błąd, to nie był cyberatak” – CrowdStrike, George Kurtz.
CrowdStrike przypłacił swój błąd znacznym spadkiem akcji na rynku NASDAQ.
Anatomia błędu
Błąd CrowdStrike został spowodowany przez odniesienie do wskaźnika NULL w C++, co jest częstym błędem w językach, w których pamięć dokonuje się operacji na pamięci. W większości przypadków ten typ błędu prowadzi do zawieszania się programu, nagłego zakończenia programu a w przypadku sterownika systemowego prowadzi do restartu komputera.
Problemy również z Linuxem
Choć wczorajsza globalna awaria komputerów dotyczyła głównie urządzeń z systemem Windows, okazuje się, że problem ten nie ograniczał się tylko do nich. Komputery z systemami Linux, takimi jak Debian i Rocky Linux, również padły ofiarą wadliwej aktualizacji oprogramowania CrowdStrike. W przypadku systemu Debian, niekompatybilność aktualizacji spowodowała zawieszenie serwerów, które nie były w stanie poprawnie się uruchomić. Podobna sytuacja miała miejsce z Rocky Linux po aktualizacji do wersji 9.4, gdzie błędy w oprogramowaniu CrowdStrike uniemożliwiły rozruch systemu, prowadząc do krytycznych błędów jądra systemowego.
Czy problem można rozwiązać zdalnie?
Wbrew wielu wypowiedziom ekspertów dobrze eksploatowana infrastruktura IT w znaczący sposób może ułatwić uruchomienie komputerów, nawet w sposób zdalny. Funkcje zdalnego KVM poza pasmem w Intel vPro umożliwiają zdalne ponowne uruchamianie i naprawianie urządzeń bez względu na to, gdzie się znajdują.
Źródło: Intel Inc.
Czym jest technologia Intel vPro?
Technologia Intel vPro to zestaw funkcji zabezpieczeń, zarządzania i wydajności wbudowany w procesory Intel, przeznaczony głównie do zastosowań biznesowych i korporacyjnych. Intel vPro zapewnia zaawansowane możliwości zarządzania i bezpieczeństwa, które pomagają IT w monitorowaniu, utrzymaniu i ochronie urządzeń w sieci.
Szczegółowy opis technologii dostępny jest pod linkiem:
https://www.intel.com/content/www/us/en/architecture-and-technology/vpro/what-is-vpro.html
Czy każdy komputer posiada Intel vPro?
Intel® AMT, dostępna jest na wszystkich urządzeniach zbudowanych na platformie Intel vPro® Enterprise for Windows. Platforma zapewnia zaawansowane narzędzia do zdalnego zarządzania IT w zakresie:
– Zdalna naprawa uszkodzonych sterowników, oprogramowania aplikacji, systemów operacyjnych (nawet tych niereagujących),
– Lepsze zarządzanie zapasami poprzez wykrywanie i monitorowanie stanu wszystkich punktów końcowych w sieci, niezależnie od ich stanu zasilania, stanu systemu operacyjnego lub typu łączności,
– Utrzymanie spójności i aktualności infrastruktury IT dzięki zdalnym, zaplanowanym automatycznym poprawkom i aktualizacjom oprogramowania,
– Zmniejszenie liczby przerw w działaniu oprogramowania, których doświadczają użytkownicy, poprzez zdalne wybudzanie systemów i łatanie ich poza godzinami pracy.
Przewodnik implementacji Intel vPro:
Jakie procedury IT należy wdrożyć, żeby zminimalizować ryzyko blokady infrastruktury IT w przyszłości?
Wdrożenie procedur zarządzania poprawkami (patch management)
Funkcjonalność zarządzania poprawkami i aktualizacjami (patch management) systemie eAuditor dla systemów MS Windows daje możliwość szybkiej identyfikacji zainstalowanych i niezainstalowanych poprawek i aktualizacji. Pozwala użytkownikom skutecznie i wydajnie zarządzać aktualizacjami systemowymi. Moduł patch management analizuje konfigurację systemu oraz inwentaryzuje zainstalowane poprawki. Administrator decyduje które poprawki należy zainstalować i powinien to zrobić po przetestowaniu poprawności działania poprawki na wybranej grupie komputerów.
Jednak nie wszystkie poprawki i aktualizacje „przechodzą” przez mechanizm aktualizacji systemu Windows i w związku z tym administrator nie ma nad tym procesem kontroli.
Więcej:
https://www.eauditor.eu/zdalne-zarzadzanie-poprawkami-i-aktualizacjami-patch-management/
Testowanie aktualizacji przed wdrożeniem
Aby zapobiec takim sytuacjom w przyszłości, kluczowe jest wprowadzenie procedury testowania aktualizacji na wybranej grupie komputerów przed wdrożeniem ich w całej infrastrukturze. Proces ten powinien obejmować kilka etapów. Po pierwsze, aktualizacje powinny być najpierw przetestowane w środowisku, które dokładnie odzwierciedla produkcyjne ustawienia systemów. Następnie, aktualizacje powinny być wdrożone na małą skalę w rzeczywistym środowisku, wybierając grupę reprezentatywnych komputerów użytkowników. W trakcie testów należy monitorować stabilność systemu, sprawność działania aplikacji oraz integrację z innym oprogramowaniem.
Po potwierdzeniu, że aktualizacja nie powoduje żadnych problemów, można przystąpić do jej stopniowego wdrażania w całej organizacji, nadal bacznie obserwując wszelkie nieprawidłowości.
Testowanie aktualizacji minimalizuje ryzyko wystąpienia awarii w skali globalnej i zapewnia stabilność infrastruktury IT.
Zarządzanie ryzykiem
Efektywne zarządzanie ryzykiem jest nieodłącznym elementem procesu testowania aktualizacji. Należy pamiętać, że nie wszystkie aktualizacje i poprawki powinny być wdrażane natychmiast. Niektóre z nich mogą być wadliwe lub niekompatybilne z istniejącą infrastrukturą. Dlatego istotne jest, aby w pierwszej kolejności przetestować aktualizacje w kontrolowanym środowisku i na wybranej grupie urządzeń. Takie podejście pozwala na identyfikację potencjalnych problemów bez narażania całej sieci na ryzyko. Dodatkowo, systemy kluczowe dla działalności przedsiębiorstwa, zwłaszcza te używane w środowiskach produkcyjnych, mogą wymagać odizolowania, odłączenia lub zabezpieczenia za pomocą innych środków przed wdrożeniem nowych aktualizacji. Taka ostrożność i dokładność w testowaniu oraz zarządzaniu poprawkami pozwala na minimalizację ryzyka i zapewnienie ciągłości operacyjnej.
Wdrożenie metod zdalnego podłączenia do komputera (Intel vPro / AMT)
Technologia Intel vPro /AMT pozwala na zdalne (również przez WIFI) podłączenie się do komputera, który się nie uruchamia. Podłączenie wykorzystuje mechanizm sprzętowo-programowy wbudowany w chipset komputera.
Aby skorzystać z tej możliwości muszą być spełnione dwa warunki:
- komputer musi być wyposażony w odpowiednią technologię
- technologia musi być skonfigurowana na komputerze
Więcej:
https://www.eauditor.eu/zdalne-zarzadzanie-komputerami/
Regularne kopie systemu operacyjnego wraz z możliwością szybkiego przywrócenia
Korzyści
Wdrożenie i właściwa eksploatacja w/w procedur IT przynoszą wiele korzyści, szczególnie w kontekście zarządzania awariami i utrzymania ciągłości operacyjnej.
1. Szybkie odzyskiwanie po awarii
Minimalizacja przestojów: W przypadku awarii systemu lub problemów spowodowanych aktualizacjami, szybkie przywrócenie systemu operacyjnego z kopii zapasowej pozwala na minimalizację przestojów i szybkie przywrócenie normalnego funkcjonowania.
Odzyskiwanie uszkodzonych plików systemowych: Jeśli pliki systemowe zostaną uszkodzone lub usunięte, kopie zapasowe pozwalają na ich szybkie odzyskanie.
2. Zabezpieczenie przed utratą danych
Zabezpieczenie konfiguracji i ustawień: Kopie zapasowe zawierają wszystkie ustawienia i konfiguracje systemu, co pozwala na ich szybkie przywrócenie bez konieczności rekonfigurowania systemu od podstaw.
3. Ułatwienie zarządzania aktualizacjami
Bezpieczne wdrażanie aktualizacji: Przed wprowadzeniem nowych aktualizacji lub zmian w systemie, wykonanie kopii zapasowej pozwala na szybkie wycofanie się z tych zmian w przypadku wystąpienia problemów.
Testowanie i walidacja: Możliwość szybkiego przywrócenia systemu pozwala na bardziej agresywne testowanie nowych aktualizacji i funkcji bez obawy o długotrwałe przestoje.
4. Redukcja kosztów przestojów
Oszczędność czasu: Szybkie przywrócenie systemu operacyjnego z kopii zapasowej jest znacznie szybsze niż ręczne rekonfigurowanie systemu od podstaw, co przekłada się na oszczędność czasu i kosztów.
Zminimalizowanie wpływu na użytkowników: Szybkie przywrócenie systemu ogranicza czas, w którym użytkownicy są bez dostępu do potrzebnych im zasobów i aplikacji, co minimalizuje negatywny wpływ na produktywność.
5. Podniesienie bezpieczeństwa
Ochrona przed złośliwym oprogramowaniem: W przypadku infekcji złośliwym oprogramowaniem, szybkie przywrócenie systemu operacyjnego z czystej kopii zapasowej może skutecznie usunąć zagrożenie.
Integralność systemu: Kopie zapasowe pozwalają na przywrócenie integralności systemu w przypadku ataków, które mogłyby uszkodzić lub zmienić pliki systemowe.
6. Łatwość zarządzania wieloma systemami
Centralne zarządzanie: W środowiskach, gdzie zarządzane są liczne systemy, kopie zapasowe umożliwiają centralne zarządzanie i szybką rekonfigurację wielu systemów w krótkim czasie.
Standaryzacja: Regularne kopie zapasowe mogą służyć jako baza do tworzenia standardowych konfiguracji systemów, co ułatwia utrzymanie jednolitych ustawień i polityk w całej organizacji.
Regularne wykonywanie kopii systemu operacyjnego i posiadanie planu szybkiego przywracania to kluczowe elementy strategii zarządzania IT, które mogą znacząco poprawić stabilność, bezpieczeństwo i wydajność systemów informatycznych.
Jeśli chcesz wdrożyć skuteczne rozwiązania w zakresie zarządzania infrastrukturą IT w celu zapobieżenia takim awariom skontaktuj się z nami.
Może Cię zainteresować