Počas noci 31.3. na 1.4. 2014 došlo k výpadku disku na diskovom poli, automaticky sa pole začalo rebuildovať na hotspare disk; počas rebuildu ráno okolo 8.00 vypadli ďalšie disky, čo spôsobilo výpadok webových stránok. Výpadok týchto niekoľkých diskov preverujeme (či sa jednalo o firmvérovú chybu, alebo nejakú inú vadu), keďže na ukladanie dát používame diskové polia HP MSA , na diskoch je taktiež pravidelne spúšťaný scan povrchov aby sa predišlo používaniu chybných diskov.
Výpadok sa nedotkol všetkých webov, ale len časti zákazníkov , 3 clustrov okolo 5000 domén (z celkového počtu takmer 30.000 domén hostovaných v našej spoločnosti), trval od 8.13 do 11.56 hodiny, kedy bolo spustené nové diskové pole. V poobedňajších hodinách mohlo ešte u niektorých ojedinelých webov dôjsť k výpadkom, ktoré sme ihneď odstránili; tieto výpadky boli spôsobené tým, že bolo nutné doladiť nastavenie nového diskového poľa, ako aj prestaviť všetky servery v daných clustroch.
Za účelom predchádzania takýmto a iným výpadkom sú momentálne už pripravené nové storage zariadenia, ktoré replikujú dáta na niekoľko diskových poli v rôznych rackoch číže nové riešenie by malo predchádzať aj akejkoľvek poruche niektorého z polí. Na záver uvádzame, že výpadok sa týkal len samotných webov, a nie iných služieb, keďže na každú zo služieb sa používajú rôzne servery/storage.
Všetkým dotknutým zákazníkom sa za vzniknuté nepríjemnosti ospravedlňujeme a okrem popísaných prijatých opatrení zároveň priebežne obnovujeme celú hardvérovú základňu, s dôrazom na duplicitu všetkých zariadení (serverov, switchov, diskových polí a pod.), tak aby ani prípadné zlyhanie niektorého z nich neohrozilo plynulý chod všetkých poskytovaných služieb.
Phishing