Vyjadrenie k výpadku 1.4.2014

Počas noci 31.3. na 1.4. 2014 došlo k výpadku disku  na diskovom poli, automaticky sa pole začalo rebuildovať na hotspare disk; počas rebuildu ráno okolo 8.00 vypadli ďalšie disky, čo spôsobilo výpadok webových stránok.  Výpadok týchto niekoľkých diskov preverujeme (či sa jednalo o firmvérovú chybu, alebo nejakú inú vadu), keďže na ukladanie dát používame diskové polia HP MSA , na diskoch je taktiež pravidelne spúšťaný scan povrchov aby sa predišlo používaniu chybných diskov.

Výpadok sa nedotkol všetkých webov, ale len časti zákazníkov , 3 clustrov okolo 5000 domén (z celkového počtu takmer 30.000 domén hostovaných v našej spoločnosti), trval od 8.13 do 11.56 hodiny, kedy bolo spustené nové diskové pole. V poobedňajších hodinách mohlo ešte u niektorých ojedinelých webov dôjsť k výpadkom, ktoré sme ihneď odstránili; tieto výpadky boli spôsobené tým, že bolo nutné doladiť nastavenie nového diskového poľa, ako aj prestaviť všetky servery v daných clustroch.

Za účelom predchádzania takýmto a  iným výpadkom  sú momentálne už pripravené nové storage zariadenia, ktoré replikujú dáta na niekoľko diskových poli v rôznych rackoch číže nové riešenie by malo predchádzať aj akejkoľvek poruche niektorého z polí.  Na záver uvádzame, že výpadok sa týkal len samotných webov, a nie iných služieb, keďže na  každú zo služieb sa používajú rôzne servery/storage.

Všetkým dotknutým zákazníkom sa za vzniknuté nepríjemnosti ospravedlňujeme a okrem popísaných prijatých opatrení zároveň priebežne obnovujeme celú hardvérovú základňu, s dôrazom na duplicitu všetkých zariadení (serverov, switchov, diskových polí a pod.), tak aby ani prípadné zlyhanie niektorého z nich neohrozilo plynulý chod všetkých poskytovaných služieb.

 

Exoman má najširší záber tém, keďže píše rukami exákov :)