Čas a datum výpadku: 2015-03-26 01:00
Očekavaná délka: 20 minut
Výpadek se týká serverů: node1.prg
Důvod: ZFS update
Detailnější popis: Tak node1.prg je dalsim na rade v updatech, koukam, ze to opravdu potrebuje, ARC je vytlacena samym neuzitecnym obsahem, chudaci disky.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-26 01:00
Estimated duration: 20 minutes
What's affected: node1.prg
Reason: ZFS update
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNS0w
My0yNiAwMTowMCIsImR1cmF0aW9uIjoiMjAiLCJzZXJ2ZXJzIjpbIm5vZGUxLnByZyJdLCJyZWFz
b25fY3MiOiJaRlMgdXBkYXRlIiwiZGVzY3JpcHRpb25fY3MiOiJUYWsgbm9kZTEucHJnIGplIGRh
bHNpbSBuYSByYWRlIHYgdXBkYXRlY2gsIGtvdWthbSwgemUgdG8gb3ByYXZkdSBwb3RyZWJ1amUs
IEFSQyBqZSB2eXRsYWNlbmEgc2FteW0gbmV1eml0ZWNueW0gb2JzYWhlbSwgY2h1ZGFjaSBkaXNr
eS5cclxuXHJcbiIsInJlYXNvbl9lbiI6IlpGUyB1cGRhdGUiLCJwZXJmb3JtZWRfYnkiOiJQYXZl
bCBTbmFqZHIiLCJwcm9ncmVzc191cGRhdGVzIjoiIn0=
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-25 01:00
Očekavaná délka: 20 minut
Výpadek se týká serverů: node2.prg
Důvod: ZFS update
Detailnější popis: Node2 je jeden z nodu se zatim nepatchnutym ZFS a ta chyba se tam zacala projevovat. Bude potreba ho rebootnout.
Jeste nejsou vsechny, ale nechci je zbytecne rebootovat, pokud to neni potreba. Pravdepodobne dalsi budou nasledovat v dalsich dnech. Nicmene patchnute stroje uz potom bezi, jak maji.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-25 01:00
Estimated duration: 20 minutes
What's affected: node2.prg
Reason: ZFS update
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNS0w
My0yNSAwMTowMCIsImR1cmF0aW9uIjoiMjAiLCJzZXJ2ZXJzIjpbIm5vZGUyLnByZyJdLCJyZWFz
b25fY3MiOiJaRlMgdXBkYXRlIiwiZGVzY3JpcHRpb25fY3MiOiJOb2RlMiBqZSBqZWRlbiB6IG5v
ZHUgc2UgemF0aW0gbmVwYXRjaG51dHltIFpGUyBhIHRhIGNoeWJhIHNlIHRhbSB6YWNhbGEgcHJv
amV2b3ZhdC4gQnVkZSBwb3RyZWJhIGhvIHJlYm9vdG5vdXQuXHJcblxyXG5KZXN0ZSBuZWpzb3Ug
dnNlY2hueSwgYWxlIG5lY2hjaSBqZSB6Ynl0ZWNuZSByZWJvb3RvdmF0LCBwb2t1ZCB0byBuZW5p
IHBvdHJlYmEuIFByYXZkZXBvZG9ibmUgZGFsc2kgYnVkb3UgbmFzbGVkb3ZhdCB2IGRhbHNpY2gg
ZG5lY2guIE5pY21lbmUgcGF0Y2hudXRlIHN0cm9qZSB1eiBwb3RvbSBiZXppLCBqYWsgbWFqaS5c
clxuIiwicmVhc29uX2VuIjoiWkZTIHVwZGF0ZSIsInBlcmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpk
ciIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-20 03:30
Očekavaná délka: 20 minut
Výpadek se týká serverů: node8.prg
Důvod: ZFS update
Detailnější popis: Vyhlasuju vitezstvi nad arc_meta cache. Yey! Node8 ted vylozene trpi jeste s neopatchovanou verzi, jdu ho tedy poupdatovat a rebootnout.
https://github.com/zfsonlinux/zfs/pull/3181
Dalsi servery budou nasledovat v dalsich dnech (nocich).
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-20 03:30
Estimated duration: 20 minutes
What's affected: node8.prg
Reason: ZFS update
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMjAgMDM6MzAiLCJkdXJhdGlvbiI6IjIwIiwic2VydmVycyI6WyJub2RlOC5wcmciXSwi
cmVhc29uX2NzIjoiWkZTIHVwZGF0ZSIsImRlc2NyaXB0aW9uX2NzIjoiVnlobGFzdWp1IHZpdGV6
c3R2aSBuYWQgYXJjX21ldGEgY2FjaGUuIFlleSEgTm9kZTggdGVkIHZ5bG96ZW5lIHRycGkgamVz
dGUgcyBuZW9wYXRjaG92YW5vdSB2ZXJ6aSwgamR1IGhvIHRlZHkgcG91cGRhdG92YXQgYSByZWJv
b3Rub3V0LlxyXG5cclxuaHR0cHM6XC9cL2dpdGh1Yi5jb21cL3pmc29ubGludXhcL3pmc1wvcHVs
bFwvMzE4MVxyXG5cclxuRGFsc2kgc2VydmVyeSBidWRvdSBuYXNsZWRvdmF0IHYgZGFsc2ljaCBk
bmVjaCAobm9jaWNoKS5cclxuXHJcbiIsInJlYXNvbl9lbiI6IlpGUyB1cGRhdGUiLCJwZXJmb3Jt
ZWRfYnkiOiJQYXZlbCBTbmFqZHIiLCJwcm9ncmVzc191cGRhdGVzIjoiIn0=
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-20 01:00
Očekavaná délka: 20 minut
Výpadek se týká serverů: node10.prg
Důvod: Aplikovani patche do ZFS
Detailnější popis: V ramci honby za odladenim bugu se ZFS potrebuju na node10 aplikovat ASAP dalsi patch. Provedu to tedy dneska v noci.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-20 01:00
Estimated duration: 20 minutes
What's affected: node10.prg
Reason: ZFS patch
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNS0w
My0yMCAwMTowMCIsImR1cmF0aW9uIjoiMjAiLCJzZXJ2ZXJzIjpbIm5vZGUxMC5wcmciXSwicmVh
c29uX2NzIjoiQXBsaWtvdmFuaSBwYXRjaGUgZG8gWkZTIiwiZGVzY3JpcHRpb25fY3MiOiJWIHJh
bWNpIGhvbmJ5IHphIG9kbGFkZW5pbSBidWd1IHNlIFpGUyBwb3RyZWJ1anUgbmEgbm9kZTEwIGFw
bGlrb3ZhdCBBU0FQIGRhbHNpIHBhdGNoLiBQcm92ZWR1IHRvIHRlZHkgZG5lc2thIHYgbm9jaS5c
clxuXHJcbiIsInJlYXNvbl9lbiI6IlpGUyBwYXRjaCIsInBlcmZvcm1lZF9ieSI6IlBhdmVsIFNu
YWpkciIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-20 01:00
Očekavaná délka: 20 minut
Výpadek se týká serverů: node4.prg
Důvod: Zaseknuty kontejner
Detailnější popis: Kontejner jednoho clena na node4 zustal viset v nedefinovanem stavu, musim tu masinu otocit. Kontrolovane, pokud mozno, po spicce - cili 1:00 rano.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-20 01:00
Estimated duration: 20 minutes
What's affected: node4.prg
Reason: Container stuck
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMjAgMDE6MDAiLCJkdXJhdGlvbiI6IjIwIiwic2VydmVycyI6WyJub2RlNC5wcmciXSwi
cmVhc29uX2NzIjoiWmFzZWtudXR5IGtvbnRlam5lciIsImRlc2NyaXB0aW9uX2NzIjoiS29udGVq
bmVyIGplZG5vaG8gY2xlbmEgbmEgbm9kZTQgenVzdGFsIHZpc2V0IHYgbmVkZWZpbm92YW5lbSBz
dGF2dSwgbXVzaW0gdHUgbWFzaW51IG90b2NpdC4gS29udHJvbG92YW5lLCBwb2t1ZCBtb3pubywg
cG8gc3BpY2NlIC0gY2lsaSAxOjAwIHJhbm8uIiwicmVhc29uX2VuIjoiQ29udGFpbmVyIHN0dWNr
IiwicGVyZm9ybWVkX2J5IjoiUGF2ZWwgU25hamRyIiwicHJvZ3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-19 11:50
Očekavaná délka: 30 minut
Výpadek se týká serverů: node10.prg
Důvod: System overload
Detailnější popis:
Výpadek vykonává: Jakub Skokan
ENGLISH:
Date and time: 2015-03-19 11:50
Estimated duration: 30 minutes
What's affected: node10.prg
Reason: System overload
Performed by: Jakub Skokan
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMTkgMTE6NTAiLCJkdXJhdGlvbiI6IjMwIiwic2VydmVycyI6WyJub2RlMTAucHJnIl0s
InJlYXNvbl9jcyI6IlN5c3RlbSBvdmVybG9hZCIsImRlc2NyaXB0aW9uX2NzIjoiIiwicmVhc29u
X2VuIjoiU3lzdGVtIG92ZXJsb2FkIiwicGVyZm9ybWVkX2J5IjoiSmFrdWIgU2tva2FuIiwicHJv
Z3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-19 01:00
Očekavaná délka: 20 minut
Výpadek se týká serverů: node10.prg
Důvod: Postup v reseni meta cache problemu
Detailnější popis: Potrebuju otocit node10, kvuli reseni toho meta caching problemu. Kontrolovane, mel by probehnout clean shutdown (kdyz mne OpenVZ nevypece).
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-19 01:00
Estimated duration: 20 minutes
What's affected: node10.prg
Reason: Making progress in meta cache bug resolution
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNS0w
My0xOSAwMTowMCIsImR1cmF0aW9uIjoiMjAiLCJzZXJ2ZXJzIjpbIm5vZGUxMC5wcmciXSwicmVh
c29uX2NzIjoiUG9zdHVwIHYgcmVzZW5pIG1ldGEgY2FjaGUgcHJvYmxlbXUiLCJkZXNjcmlwdGlv
bl9jcyI6IlBvdHJlYnVqdSBvdG9jaXQgbm9kZTEwLCBrdnVsaSByZXNlbmkgdG9obyBtZXRhIGNh
Y2hpbmcgcHJvYmxlbXUuIEtvbnRyb2xvdmFuZSwgbWVsIGJ5IHByb2JlaG5vdXQgY2xlYW4gc2h1
dGRvd24gKGtkeXogbW5lIE9wZW5WWiBuZXZ5cGVjZSkuXHJcbiIsInJlYXNvbl9lbiI6Ik1ha2lu
ZyBwcm9ncmVzcyBpbiBtZXRhIGNhY2hlIGJ1ZyByZXNvbHV0aW9uIiwicGVyZm9ybWVkX2J5Ijoi
UGF2ZWwgU25hamRyIiwicHJvZ3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-18 16:51
Očekavaná délka: 25 minut
Výpadek se týká serverů: node4.prg
Důvod: Deadlock
Detailnější popis: Deadlock kvuli memory pressure presne kvuli problemum s arc_meta_limit, ktere v poslednich dnech resim.
Node4 by mel nabehnout s posledni verzi patche proti prerustani arc_meta_limit, ktera sice nedrzi jeste, jak by mela, ale minimalne ty problemy oddaluje.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-18 16:51
Estimated duration: 25 minutes
What's affected: node4.prg
Reason: Deadlock
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMTggMTY6NTEiLCJkdXJhdGlvbiI6IjI1Iiwic2VydmVycyI6WyJub2RlNC5wcmciXSwi
cmVhc29uX2NzIjoiRGVhZGxvY2siLCJkZXNjcmlwdGlvbl9jcyI6IkRlYWRsb2NrIGt2dWxpIG1l
bW9yeSBwcmVzc3VyZSBwcmVzbmUga3Z1bGkgcHJvYmxlbXVtIHMgYXJjX21ldGFfbGltaXQsIGt0
ZXJlIHYgcG9zbGVkbmljaCBkbmVjaCByZXNpbS5cclxuXHJcbk5vZGU0IGJ5IG1lbCBuYWJlaG5v
dXQgcyBwb3NsZWRuaSB2ZXJ6aSBwYXRjaGUgcHJvdGkgcHJlcnVzdGFuaSBhcmNfbWV0YV9saW1p
dCwga3RlcmEgc2ljZSBuZWRyemkgamVzdGUsIGphayBieSBtZWxhLCBhbGUgbWluaW1hbG5lIHR5
IHByb2JsZW15IG9kZGFsdWplLlxyXG5cclxuIiwicmVhc29uX2VuIjoiRGVhZGxvY2siLCJwZXJm
b3JtZWRfYnkiOiJQYXZlbCBTbmFqZHIiLCJwcm9ncmVzc191cGRhdGVzIjoiIn0=
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-18 02:20
Očekavaná délka: 20 minut
Výpadek se týká serverů: node10.prg
Důvod: Reboot pro update ZFS
Detailnější popis: arc_limit_meta_cache prekrocila velikost ARC, tim padem jsou disky uplne IO-zahlcene. Resim to uz nekolitam dnem s upstreamem, vypada to, ze jsme se dobrali k patchi, ktery to opravuje.
Viz. https://github.com/zfsonlinux/zfs/pull/3181
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-18 02:20
Estimated duration: 20 minutes
What's affected: node10.prg
Reason: Reboot for ZFS update
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMTggMDI6MjAiLCJkdXJhdGlvbiI6IjIwIiwic2VydmVycyI6WyJub2RlMTAucHJnIl0s
InJlYXNvbl9jcyI6IlJlYm9vdCBwcm8gdXBkYXRlIFpGUyIsImRlc2NyaXB0aW9uX2NzIjoiYXJj
X2xpbWl0X21ldGFfY2FjaGUgcHJla3JvY2lsYSB2ZWxpa29zdCBBUkMsIHRpbSBwYWRlbSBqc291
IGRpc2t5IHVwbG5lIElPLXphaGxjZW5lLiBSZXNpbSB0byB1eiBuZWtvbGl0YW0gZG5lbSBzIHVw
c3RyZWFtZW0sIHZ5cGFkYSB0bywgemUganNtZSBzZSBkb2JyYWxpIGsgcGF0Y2hpLCBrdGVyeSB0
byBvcHJhdnVqZS5cclxuXHJcblZpei4gaHR0cHM6XC9cL2dpdGh1Yi5jb21cL3pmc29ubGludXhc
L3pmc1wvcHVsbFwvMzE4MSIsInJlYXNvbl9lbiI6IlJlYm9vdCBmb3IgWkZTIHVwZGF0ZSIsInBl
cmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----