Dobry den
Zvykli sme pravidelne citat tento mailinglist a aj ked sme sa citili castokrat dotknuti roznymi vyjadreniami, vzdy sme to ignorovali. Dnes sme vsak boli nazvani "banda neschopnych hovad", tak uz reagovat musime.
So serverom Epsilon bol za posledne mesiace castokrat problem. Niekto ten server zrejme pretazuje a to tak, ze je nutny restart. Tento restart sme robili pravidelne na dialku. Problem bol/je, ze server skoro nikdy nenabehol, ostal na FSCK a bola teda nutna navsteva serverovne.
Tuto navstevu sme vykonavali my (firma Platon). Nie su to nase servery a nemame k nim administratorsky pristup, pomahali sme vsak vpsFree a to aj napriek tomu, ze tieto (caste) zasahy nikdy neboli oficialne dohodnute (tazko sa pracuje so serverom, ktory sami nespravujeme).
Rovnaka situacia nastala aj dnes. Bohuzial celkom dobre nechapem preco boli nutne tieto invektivy na nasich ludi.
Chronologia - ako som si ju vyziadal od zamestnancov:
17:45 - vypadok servera (podla mailinglistu outage-list) 18:00 - nahlaseny problem u nas (priblizny cas) 18:45 - nas zamestnanec v serverovi zistuje situaciu a posiela prvy e-mail zakaznikovi (vpsFree)
Nasledne sa zakaznik stazuje, ze nema pristup na remote management. V tejto chvili som ako konatel postavil do pozoru celu firmu (aj ked je sobota), ze ako je mozne, ze tato vec, ktoru tam zakaznik osobne doniesol a nefunguje! Fakt som bol nastvany, za taketo lajdactvo!
Lenze ukazalo sa, ze tento pristup bol nakonfigurovany dna 27-Oct-2011. To co nebolo nakonfigurovane bol samotny remote management device. Mame vsetky switche v SVN, takze vieme presne kedy ktora zmena nastala, vieme kedy bol dany port otvoreny:
+! Last configuration change at 11:36:16 CEST Thu Oct 27 2011 by miquel +! NVRAM config last updated at 11:36:26 CEST Thu Oct 27 2011 by miquel + description zeta.vpsFree.cz - MNG + switchport access vlan 201
Nasledne teda zacali nasi ludia na zaklade instrukcii od zakaznika konfigurovat toto zariadenie na remote pristup. Samozrejme to je vec, s ktorou my nemame ziadne skusenosti, ani taketo zariadenie nevlastnime, ani sme nikdy nepredpokladali, ze s tym budeme musiet robit. Mysleli sme, ze dane zariadenie je nakonfigurovane, ved to bol primarny ciel pred niekolkymi mesiacmi.
Aj po oprave remote managementu server stale nestartoval kvoli chybnemu filesystemu. Ten bol po cca hodine opraveny a nasledne server funkcny. Cely tento cas boli zamestnanci firmy osobne pritomni v datovom centre pre pripad, ze by zakaznik vyzadoval este dalsi zasah.
Nemame problem remote management zariadenie nakonfigurovat ak treba, ale mohli sme tak urobit za posledne dva mesiace kedykolvek. Neprisel vsak ziadny e-mail ohladom toho, ze s tym treba cokolvek robit. To naozaj nik za 2 mesiace neotestoval ten remote management pristup ci funguje? Aky zmysel ma nefunkcny remote management? Ved to je akoby tam ziadny nebol.
Mrzi nas vzniknuta situacia a sposobeny vypadok, ktory sa dotkol urcite mnohych ludi, kedze virtualnych serverov tam bezi vela. Z nasej strany sme ale spravili maximum, alebo aspon sme sa o to pokusili.
Urcite nie sme dokonala firma, mame svoje chyby a muchy, na ktorych musime pracovat. Kazdopadne moji zamestnaci si nezasluzia oznacenie "banda neschopnych hovad". Zvlast nie po dnesnej sobote.
Este raz sa opravedlnujem za vypadok. Plynie z toho pre nas ponaucenie do buducnosti pro-aktivne pristupovat aj k veciam, ktore su mimo nasej spravy, aby vzniknute emergency situacie neboli takto stresujuce.
Dakujem za precitanie
S pozdravom
Ondrej Jombik konatel spolocnosti
-- Ondrej JOMBIK Platon Technologies Ltd., Hlavna 3, Sala SK-92701 +421 903 PLATON - info@platon.org - http://platon.org