Datum a čas výpadku: 2018-03-24 17:50 CET
Očekavaná délka: 40 minut
Výpadek se týká serverů: node2.brq
Typ výpadku: reset
Důvod: CPU soft lockup
Výpadek řeší: Pavel Šnajdr, Jakub Skokan
ENGLISH:
Date and time: 2018-03-24 17:50 CET
Expected duration: 40 minutes
Affected systems: node2.brq
Outage type: reset
Reason: CPU soft lockup
Handled by: Pavel Šnajdr, Jakub Skokan
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJpZCI6NDQ0LCJwbGFubmVkIjpmYWxzZSwiYmVnaW5zX2F0IjoiMjAxOC0w
My0yNFQxNzo1MDowMCswMTowMCIsImR1cmF0aW9uIjo0MCwidHlwZSI6InJl
c2V0IiwiZW50aXRpZXMiOlt7Im5hbWUiOiJOb2RlIiwiaWQiOjIxMSwibGFi
ZWwiOiJub2RlMi5icnEifV0sImhhbmRsZXJzIjpbIlBhdmVsIMWgbmFqZHIi
LCJKYWt1YiBTa29rYW4iXSwidHJhbnNsYXRpb25zIjp7ImVuIjp7InN1bW1h
cnkiOiJDUFUgc29mdCBsb2NrdXAiLCJkZXNjcmlwdGlvbiI6bnVsbH0sImNz
Ijp7InN1bW1hcnkiOiJDUFUgc29mdCBsb2NrdXAiLCJkZXNjcmlwdGlvbiI6
bnVsbH19fQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Datum a čas výpadku: 2018-03-22 02:45 CET
Očekavaná délka: 45 minut
Výpadek se týká serverů: node11.prg, node12.prg, node13.prg, node14.prg, node3.brq
Typ výpadku: restart
Důvod: Kernel + ZFS upgrade
Výpadek řeší: Pavel Šnajdr
Jadro s retpolines a celkove uz kompletni ochranou proti spectre v1+v2 + meltdown tak, jak je v RHELu aktualni.
ENGLISH:
Date and time: 2018-03-22 02:45 CET
Expected duration: 45 minutes
Affected systems: node11.prg, node12.prg, node13.prg, node14.prg, node3.brq
Outage type: restart
Reason: Kernel + ZFS upgrade
Handled by: Pavel Šnajdr
Retpolined kernel + ZFS with usual batch of fixes
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJpZCI6NDQxLCJwbGFubmVkIjp0cnVlLCJiZWdpbnNfYXQiOiIyMDE4LTAz
LTIyVDAyOjQ1OjAwKzAxOjAwIiwiZHVyYXRpb24iOjQ1LCJ0eXBlIjoicmVz
dGFydCIsImVudGl0aWVzIjpbeyJuYW1lIjoiTm9kZSIsImlkIjoxMTIsImxh
YmVsIjoibm9kZTExLnByZyJ9LHsibmFtZSI6Ik5vZGUiLCJpZCI6MTEzLCJs
YWJlbCI6Im5vZGUxMi5wcmcifSx7Im5hbWUiOiJOb2RlIiwiaWQiOjExNCwi
bGFiZWwiOiJub2RlMTMucHJnIn0seyJuYW1lIjoiTm9kZSIsImlkIjoxMTUs
ImxhYmVsIjoibm9kZTE0LnByZyJ9LHsibmFtZSI6Ik5vZGUiLCJpZCI6MjEy
LCJsYWJlbCI6Im5vZGUzLmJycSJ9XSwiaGFuZGxlcnMiOlsiUGF2ZWwgxaBu
YWpkciJdLCJ0cmFuc2xhdGlvbnMiOnsiZW4iOnsic3VtbWFyeSI6Iktlcm5l
bCArIFpGUyB1cGdyYWRlIiwiZGVzY3JpcHRpb24iOiJSZXRwb2xpbmVkIGtl
cm5lbCArIFpGUyB3aXRoIHVzdWFsIGJhdGNoIG9mIGZpeGVzIn0sImNzIjp7
InN1bW1hcnkiOiJLZXJuZWwgKyBaRlMgdXBncmFkZSIsImRlc2NyaXB0aW9u
IjoiSmFkcm8gcyByZXRwb2xpbmVzIGEgY2Vsa292ZSB1eiBrb21wbGV0bmkg
b2NocmFub3UgcHJvdGkgc3BlY3RyZSB2MSt2MiArIG1lbHRkb3duIHRhaywg
amFrIGplIHYgUkhFTHUgYWt0dWFsbmkuIn19fQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Datum a čas výpadku: 2018-03-22 02:00 CET
Očekavaná délka: 45 minut
Výpadek se týká serverů: node7.prg, node8.prg, node9.prg, node10.prg, node2.brq
Typ výpadku: restart
Důvod: Kernel + ZFS upgrade
Výpadek řeší: Pavel Šnajdr
Jadro s retpolines a celkove uz kompletni ochranou proti spectre v1+v2 + meltdown tak, jak je v RHELu aktualni.
ENGLISH:
Date and time: 2018-03-22 02:00 CET
Expected duration: 45 minutes
Affected systems: node7.prg, node8.prg, node9.prg, node10.prg, node2.brq
Outage type: restart
Reason: Kernel + ZFS upgrade
Handled by: Pavel Šnajdr
Retpolined kernel + ZFS with usual batch of fixes
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJpZCI6NDQwLCJwbGFubmVkIjp0cnVlLCJiZWdpbnNfYXQiOiIyMDE4LTAz
LTIyVDAyOjAwOjAwKzAxOjAwIiwiZHVyYXRpb24iOjQ1LCJ0eXBlIjoicmVz
dGFydCIsImVudGl0aWVzIjpbeyJuYW1lIjoiTm9kZSIsImlkIjoxMDgsImxh
YmVsIjoibm9kZTcucHJnIn0seyJuYW1lIjoiTm9kZSIsImlkIjoxMDksImxh
YmVsIjoibm9kZTgucHJnIn0seyJuYW1lIjoiTm9kZSIsImlkIjoxMTAsImxh
YmVsIjoibm9kZTkucHJnIn0seyJuYW1lIjoiTm9kZSIsImlkIjoxMTEsImxh
YmVsIjoibm9kZTEwLnByZyJ9LHsibmFtZSI6Ik5vZGUiLCJpZCI6MjExLCJs
YWJlbCI6Im5vZGUyLmJycSJ9XSwiaGFuZGxlcnMiOlsiUGF2ZWwgxaBuYWpk
ciJdLCJ0cmFuc2xhdGlvbnMiOnsiZW4iOnsic3VtbWFyeSI6Iktlcm5lbCAr
IFpGUyB1cGdyYWRlIiwiZGVzY3JpcHRpb24iOiJSZXRwb2xpbmVkIGtlcm5l
bCArIFpGUyB3aXRoIHVzdWFsIGJhdGNoIG9mIGZpeGVzIn0sImNzIjp7InN1
bW1hcnkiOiJLZXJuZWwgKyBaRlMgdXBncmFkZSIsImRlc2NyaXB0aW9uIjoi
SmFkcm8gcyByZXRwb2xpbmVzIGEgY2Vsa292ZSB1eiBrb21wbGV0bmkgb2No
cmFub3UgcHJvdGkgc3BlY3RyZSB2MSt2MiArIG1lbHRkb3duIHRhaywgamFr
IGplIHYgUkhFTHUgYWt0dWFsbmkuIn19fQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Datum a čas výpadku: 2018-03-19 20:00 CET
Očekavaná délka: 35 minut
Výpadek se týká serverů: node1.pgnd
Typ výpadku: restart
Důvod: Testovani kernelu s retpolines
Výpadek řeší: Pavel Šnajdr
Testuju fix na spectre v2 backportovany z RHEL6. Po tydennim zapasu jsem tak zvedavy, ze to chci videt hned.
Omlouvam se, jestli nekoho rusim v playgroundovani.
ENGLISH:
Date and time: 2018-03-19 20:00 CET
Expected duration: 35 minutes
Affected systems: node1.pgnd
Outage type: restart
Reason: Testing retpoline enabled kernel
Handled by: Pavel Šnajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJpZCI6NDM4LCJwbGFubmVkIjpmYWxzZSwiYmVnaW5zX2F0IjoiMjAxOC0w
My0xOVQyMDowMDowMCswMTowMCIsImR1cmF0aW9uIjozNSwidHlwZSI6InJl
c3RhcnQiLCJlbnRpdGllcyI6W3sibmFtZSI6Ik5vZGUiLCJpZCI6MzAwLCJs
YWJlbCI6Im5vZGUxLnBnbmQifV0sImhhbmRsZXJzIjpbIlBhdmVsIMWgbmFq
ZHIiXSwidHJhbnNsYXRpb25zIjp7ImVuIjp7InN1bW1hcnkiOiJUZXN0aW5n
IHJldHBvbGluZSBlbmFibGVkIGtlcm5lbCIsImRlc2NyaXB0aW9uIjpudWxs
fSwiY3MiOnsic3VtbWFyeSI6IlRlc3RvdmFuaSBrZXJuZWx1IHMgcmV0cG9s
aW5lcyIsImRlc2NyaXB0aW9uIjoiVGVzdHVqdSBmaXggbmEgc3BlY3RyZSB2
MiBiYWNrcG9ydG92YW55IHogUkhFTDYuIFBvIHR5ZGVubmltIHphcGFzdSBq
c2VtIHRhayB6dmVkYXZ5LCB6ZSB0byBjaGNpIHZpZGV0IGhuZWQuXHJcblxy
XG5PbWxvdXZhbSBzZSwgamVzdGxpIG5la29obyBydXNpbSB2IHBsYXlncm91
bmRvdmFuaS4ifX19
-----END BASE64 ENCODED PARSEABLE JSON-----