Płonące bezpieczniki, naprawy na polu krów i FBI: Prawdziwe historie z centrów danych DreamHost

Nie słyszałeś wiele o zespole Infrastructure w DreamHost (oprócz części 1 i 2 tej serii)? To znaczy, że świetnie wykonują swoją pracę!

W ich świecie cisza jest złotem, a chaos jest zawsze oddalony o kilka milisekund.

Kiedy reszta z nas ogląda filmy, śpi albo buduje swoją obecność w internecie, ten zespół przechadza się między chłodnymi alejkami, sprawdza panele sterowania, wymienia karty RAID i przygotowuje się na sytuacje awaryjne, które (miejmy nadzieję) nigdy nie nastąpią.

To spojrzenie na sale wojenne, dziwne chwile i całodobową czujność, która utrzymuje DreamHost, a także Twoją stronę, online.

Luke Odom (Dyrektor ds. Operacji IT) oraz Chris Lewis (Kierownik Centrum Danych w Portland) monitorują alejki w Centrum Danych PDX.

Dzień, W Którym Portland Pogrążyło Się W Ciemności

Jeśli jest jedna historia, która podsumowuje odporność zespołu, to awaria w Portland w listopadzie 2023 roku.

„PGE (Portland General Electric) przeprowadzało konserwację jednego z dwóch zasilaczy do centrum danych,” wyjaśnił Chris Lewis, Menadżer ds. Operacji w Centrum Danych DreamHost, odnosząc się do problemu z zasilaniem budynku.

Następnie drugie źródło zasilania uległo awarii, co spowodowało całkowitą utratę zasilania.

Akumulatory włączyły się. Generatory zaryczały i wszystko wydawało się być w porządku. Ale kiedy PGE przywróciło zasilanie z konserwacji, spowodowało to awarię przełącznika, wysyłając niebezpieczny ładunek elektryczny, który wywołał pożar i uszkodził szereg wyłączników. Z pozostałymi minutami zasilania z baterii zapasowych, zespół stanął przed najgorszym możliwym scenariuszem: kompletną awarią centrum danych.

„Prawie 75-80% naszych stojaków uległo awarii, w tym główne sieci,” powiedział Chris. „To była szaleństwo.”

A jednak, w ciągu 14 godzin i dzięki współpracy całego zespołu, wszystko zostało przywrócone. Oto jak zespół szybciej niż przewidywano przywrócił usługę, znacznie szybciej niż szacowane 2 dni do tygodnia (w najgorszym przypadku):

Oczekiwanie Na Katastrofę

Zespół spodziewał się katastrofalnej awarii (nie tej konkretnej), która mogłaby wyłączyć zasilanie i proaktywnie przeprowadził migrację do systemu, w którym większość maszyn mogłaby uruchomić się bez zależności od sieci, co pozwoliło zaoszczędzić znacząco czas.

Profilaktyczna konserwacja i odporne systemy

Stałe prace konserwacyjne i odporne systemy (raids i zpools) chroniły dane i umożliwiły racjonalne czasy wymiany zamiast pośpiechu w celu przywrócenia uszkodzonych macierzy.

Bliskość i Gotowość Personelu Na Wezwanie

Administratorzy na wezwanie mieszkają w odległości godziny od centrum danych i byli na miejscu szybko (w tym przypadku, administrator na wezwanie był na miejscu dwadzieścia minut po tym, jak został zaalarmowany).
Z powodu utraty zasilania zamki drzwi zablokowały się od zewnątrz i wyłączyły systemy bezpieczeństwa fizycznego, dlatego obecność kogoś na miejscu, aby ręcznie weryfikować tożsamości, była kluczowa — wpuszczenie kogokolwiek na piętro bez odpowiednich sprawdzeń byłoby poważnym naruszeniem bezpieczeństwa (a nawet gorzej, naruszeniem na miarę Misji: Niemożliwej).

Zdolny i Globalny Zespół TechOps z Jasnym Przywództwem

Rozległy, wykwalifikowany i globalny zespół TechOps zapewnił świeże zmiany i zdalny nadzór.
Jasne przywództwo filtrowało informacje i priorytetyzowało zadania, umożliwione przez głębokie zrozumienie warstw i zaufanie do zespołu, aby informować wszystkich o statusie wszystkich ruchomych części.

💡Czy Wiedziałeś?
Generatory Diesla DreamHost mogą zasilać całe centra danych przez do 24 godzin, pod warunkiem, że dostawy paliwa będą kontynuowane. Podczas awarii były jedynym powodem, dla którego światła (i strony) pozostały włączone.

Nadmiarowość: Sztuka Bycia Paranoikiem (W Dobrym Sensie)

Proces odzyskiwania po katastrofie nie jest wymyślany na miejscu, jest zaprojektowany z dużym wyprzedzeniem.

„Zakładamy, że coś się zepsuje,” powiedział Luke Odom, Dyrektor ds. Operacji IT w DreamHost. „Dlatego projektujemy z myślą o awarii.”

Zasilanie? Każda szafa rackowa ma zredundowane jednostki dystrybucji zasilania (PDUs) na oddzielnych zasilaniach.
Sieć? Wielu dostawców usług internetowych (ISPs) przez różne punkty wejścia.
Pamięć? Tablice RAID, warstwy replikacji i gotowe kopie zapasowe.

Chris wyraża to wprost, stosując Prawo Murphy’ego, „Wszystko, co może pójść źle, pójdzie źle”, nie chodzi o to, czy nastąpi awaria, ale kiedy. Kluczowe znaczenie ma to, jak szybko można się z niej otrząsnąć, a jeszcze lepiej – zapobiegać takim nieoczekiwanym zdarzeniom.

Monitoring: Cicha Tarcza

Utrzymywanie rzeczy online nie jest efektowne, ale jest stałe.

„Chodzimy po sali, sprawdzamy światła, przeglądamy panele sterowania każdego dnia,” powiedział Chris. „Czasami sprzęt nie zgłasza własnej awarii, więc sami szukamy.”

Ta staranność oznacza, że drobne problemy są wykrywane zanim przerodzą się w poważne awarie.

Aktualne projekty obejmują aktualizację oprogramowania układowego, łatanie luk w kodzie oraz wdrażanie lepszego raportowania, aby problemy mogły być zauważane (i rozwiązywane) jeszcze szybciej.

„Monitorujemy wszystko, co możemy,” powiedział Chris. „A kiedy coś umknie, dowiadujemy się dlaczego i naprawiamy system.”

Kiedy Automatyzacja Się Psuje (Bo Tak Się Dzieje)

Automatyzacja jest użyteczna, dopóki nie przestaje być.

„Regularnie psujemy automatyzację,” powiedział Luke. „Połowa tego, co robimy, to tak naprawdę nie jest automatyzacja, to tylko narzędzia, które przyspieszają i ułatwiają naszą ręczną pracę.”

Poważna luka w zabezpieczeniach, na przykład, zmusiła zespół do restartowania prawie wszystkiego i aktualizacji BIOS w całej infrastrukturze. Było to żmudne i niezautomatyzowane, aż do momentu, gdy zbudowali narzędzie usprawniające powtarzalne kroki. Nadal go używają.

Konfiguracja serwera, która kiedyś wymagała godzin, teraz zajmuje 20 minut dzięki OpenStack i Ansible. Ale jeśli zmienią się oprogramowanie układowe, wersje systemu operacyjnego lub sterowniki, skrypty przestają działać i wracamy do pracy manualnej.

Historia Wojenna #2: Edycja Pole Krowy

Czasami wsparcie infrastruktury odbywa się w… niekonwencjonalnych miejscach.

Podczas urlopu na południu Georgii, Luke otrzymał telefon: awaria RAID. Sprzęt nie działał, a serwery były offline. Jako ostatnią deskę ratunku, zespół zadzwonił po pomoc do Luke’a.

„Siedziałem na quadzie, kiedy prowadziłem krowy,” powiedział. „Przeszedłem z technikiem przez proces ponownego montażu tablicy z jednym działającym dyskiem. Zduplikowaliśmy go, odbudowaliśmy RAID i przywróciliśmy klientów do pracy,” powiedział.

Tak, z pośrodku pola krowiego.

Historia Wojenna #3: Jimmy Gracz, Zwalczający Oszustwa

Mniej więcej dekadę temu DreamHost został zaatakowany przez falę oszukańczych rejestracji. Hakerzy przejmowali konta, zamawiali dedykowane serwery lub oferty VPS i używali ich do przeprowadzania ataków lub kopania kryptowalut.

Wprowadzenie: Gamer Jimmy.
Nie jest członkiem zespołu, ale notorycznym hakerem, którego działalność zainspirowała wewnętrzny skrypt.

„Jeden z chłopaków napisał skrypt nazwany na cześć „Gamera Jimmy’ego” – powiedział Chris. „Skanował on wskaźniki oszustw i automatycznie odrzucał podejrzane zgłoszenia.”

Działa.

💡Czy Wiesz?
FBI kiedyś zainstalowało tajne urządzenie podsłuchowe jednego z klientów DreamHost: pod podłogą centrum danych. Odkryto je później podczas wyłączania centrum. Lokalizacja tagu majątkowego była dosłownie: pod podłogą.

Infrastruktura DreamHost: Nieśpiewani Bohaterowie

Na koniec dnia, zespół infrastruktury DreamHost to nie tylko migające lampki i przepływ powietrza. To oni rzucają wszystko – spotkania, sen, a nawet wakacje – aby utrzymać Twoją stronę online.

„Nie widzisz nas, dopóki coś się nie zepsuje,” powiedział Chris. „Ale właśnie o to chodzi. Jeśli jesteśmy niewidoczni, to znaczy, że robimy to dobrze.”

A jeśli je zobaczysz?

Zapewne jest tam płonąca centrala telefoniczna lub czterokołowiec. A mimo to, twój serwer nadal działa.