Čas a datum výpadku: 2016-10-31 16:49
Očekavaná délka: 30 minut
Výpadek se týká serverů: node13.prg
Důvod: CPU soft lock up
Detailnější popis:
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2016-10-31 16:49
Estimated duration: 30 minutes
What's affected: node13.prg
Reason: CPU soft lock up
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTYtMTAtMzEgMTY6NDkiLCJkdXJhdGlvbiI6IjMwIiwic2VydmVycyI6WyJub2RlMTMucHJnIl0s
InJlYXNvbl9jcyI6IkNQVSBzb2Z0IGxvY2sgdXAiLCJkZXNjcmlwdGlvbl9jcyI6IiIsInJlYXNv
bl9lbiI6IkNQVSBzb2Z0IGxvY2sgdXAiLCJwZXJmb3JtZWRfYnkiOiJQYXZlbCBTbmFqZHIiLCJw
cm9ncmVzc191cGRhdGVzIjoiIn0=
-----END BASE64 ENCODED PARSEABLE JSON-----
Ahojte,
mozna jste si vsimli, ze to s vykonem po updatu neni vubec dobre, hlavne
co se tyce IO a netlink-related operaci (manipulace se sitovanim).
Vypada to, ze spolu s fixem na Dirty COW jsme natahli i zmeny, ktery
maji negativni dopad na vykon celeho systemu.
Takze jsem vyextrahoval patch na Dirty COW a aplikoval ho na verzi
kernelu, kterou jsme bezeli pred tim bez problemu.
OpenVZ moc tomu testingu neda a nam se bohuzel v testovacim prostredi v
Brne taky vsechno neprojevilo, cili nas bude cekat velmi brzo jeste
jeden masovy update a reboot.
Podle toho, jak se zadari, dneska v noci dodelame node1.pgnd (ten jeste
mozna pred pulnoci) a po jedne rano node2.brq; urcite musime taky neco
udelat s node11, kde vsechno trva neskutecne dlouho a aplikace tuhnou (a
i IRC bouncer to negativne ovlivnilo).
Zitra bychom potom asi dodelali zbytek (zatim velmi predbezne informace,
resim to za chodu).
Omlouvam se za potize :(
Delame kolektivne, co se da, aby bylo po problemech co nejdriv, ale
bohuzel to bude stat jeste nejaky ten nocni downtime.
/snajpa
Čas a datum výpadku: 2016-10-24 01:04
Očekavaná délka: 40 minut
Výpadek se týká serverů: node11.prg
Důvod: Vadny RAM modul
Detailnější popis: V node11 jsou DDR4 RAM, ktere nemame navic, jelikoz jsme nepocitali, ze DDR4 budou odchazet tak rychle.
Cili musime 2 moduly vyndat a nove tam potom vratime, jakmile budeme instalovat 10Gbit sitovku.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2016-10-24 01:04
Estimated duration: 40 minutes
What's affected: node11.prg
Reason: Bad RAM module
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTYtMTAtMjQgMDE6MDQiLCJkdXJhdGlvbiI6IjQwIiwic2VydmVycyI6WyJub2RlMTEucHJnIl0s
InJlYXNvbl9jcyI6IlZhZG55IFJBTSBtb2R1bCIsImRlc2NyaXB0aW9uX2NzIjoiViBub2RlMTEg
anNvdSBERFI0IFJBTSwga3RlcmUgbmVtYW1lIG5hdmljLCBqZWxpa296IGpzbWUgbmVwb2NpdGFs
aSwgemUgRERSNCBidWRvdSBvZGNoYXpldCB0YWsgcnljaGxlLlxyXG5cclxuQ2lsaSBtdXNpbWUg
MiBtb2R1bHkgdnluZGF0IGEgbm92ZSB0YW0gcG90b20gdnJhdGltZSwgamFrbWlsZSBidWRlbWUg
aW5zdGFsb3ZhdCAxMEdiaXQgc2l0b3ZrdS4iLCJyZWFzb25fZW4iOiJCYWQgUkFNIG1vZHVsZSIs
InBlcmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2016-10-23 18:55
Očekavaná délka: 30 minut
Výpadek se týká serverů: node2.brq
Důvod: Kernel bug
Detailnější popis: Projevuje se stejny problem jako na node1.pgnd, viz https://bugs.openvz.org/browse/OVZ-6813
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2016-10-23 18:55
Estimated duration: 30 minutes
What's affected: node2.brq
Reason: Kernel bug
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTYtMTAtMjMgMTg6NTUiLCJkdXJhdGlvbiI6IjMwIiwic2VydmVycyI6WyJub2RlMi5icnEiXSwi
cmVhc29uX2NzIjoiS2VybmVsIGJ1ZyIsImRlc2NyaXB0aW9uX2NzIjoiUHJvamV2dWplIHNlIHN0
ZWpueSBwcm9ibGVtIGpha28gbmEgbm9kZTEucGduZCwgdml6IGh0dHBzOlwvXC9idWdzLm9wZW52
ei5vcmdcL2Jyb3dzZVwvT1ZaLTY4MTMiLCJyZWFzb25fZW4iOiJLZXJuZWwgYnVnIiwicGVyZm9y
bWVkX2J5IjoiUGF2ZWwgU25hamRyIiwicHJvZ3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Ahojte,
asi jste zaznamenali Dirty COW bug v kernelu:
http://dirtycow.ninja/
V tuhle chvili jeste neni dostupny patch pro RHEL6, takze planovany
update nema smysl delat.
Nicmene, vsechny exploity, co jsem na tu chybu nasel, nefunguji pod
RHEL6 jadrem (natoz OpenVZ).
Situaci sledujeme a jakmile bude dostupna oprava, hned tu noc udelame
update (tzn. pravdepodobne nepujde dodrzet 24h notice o vypadku predem,
ale proste to budeme resit nejblizsi nasledujici noc po tom, co Red Hat
vyda opravu).
Kdybyste kdokoliv mel neco k tomuhle tematu, stavte se prosim na IRC,
pripadne napiste na podporu - zejmena, kdybyste nekdo vedel, kde najdu
kod exploitu dcow pres ptrace syscall - ten exploit pres /proc/self/mem
na EL6 nefunguje (ani bez OpenVZ).
/snajpa
Čas a datum výpadku: 2016-10-23 01:00
Očekavaná délka: 60 minut
Výpadek se týká serverů: node1.brq, node2.brq, node3.brq
Důvod: Kernel update
Detailnější popis: Dirty COW
Výpadek vykonává: Pavel Snajdr, Richard Marko
ENGLISH:
Date and time: 2016-10-23 01:00
Estimated duration: 60 minutes
What's affected: node1.brq, node2.brq, node3.brq
Reason: Kernel update
Performed by: Pavel Snajdr, Richard Marko
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNi0x
MC0yMyAwMTowMCIsImR1cmF0aW9uIjoiNjAiLCJzZXJ2ZXJzIjpbIm5vZGUxLmJycSIsIm5vZGUy
LmJycSIsIm5vZGUzLmJycSJdLCJyZWFzb25fY3MiOiJLZXJuZWwgdXBkYXRlIiwiZGVzY3JpcHRp
b25fY3MiOiJEaXJ0eSBDT1ciLCJyZWFzb25fZW4iOiJLZXJuZWwgdXBkYXRlIiwicGVyZm9ybWVk
X2J5IjoiUGF2ZWwgU25hamRyLCBSaWNoYXJkIE1hcmtvIiwicHJvZ3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2016-10-22 16:00
Očekavaná délka: 240 minut
Výpadek se týká serverů: vpsadmin.vpsfree.cz
Důvod: Aktualizace vpsAdminu
Detailnější popis: Vypadek se dotkne jen vpsAdminu, niceho jineho. Nutne veci v tu dobu reste prosim pres podporu.
ENGLISH:
The outage will affect only vpsAdmin, nothing else. Contact our support in case of an emergency.
Výpadek vykonává: Jakub Skokan
ENGLISH:
Date and time: 2016-10-22 16:00
Estimated duration: 240 minutes
What's affected: vpsadmin.vpsfree.cz
Reason: vpsAdmin upgrade
Performed by: Jakub Skokan
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNi0x
MC0yMiAxNjowMCIsImR1cmF0aW9uIjoiMjQwIiwic2VydmVycyI6WyJ2cHNhZG1pbi52cHNmcmVl
LmN6Il0sInJlYXNvbl9jcyI6IkFrdHVhbGl6YWNlIHZwc0FkbWludSIsImRlc2NyaXB0aW9uX2Nz
IjoiVnlwYWRlayBzZSBkb3RrbmUgamVuIHZwc0FkbWludSwgbmljZWhvIGppbmVoby4gTnV0bmUg
dmVjaSB2IHR1IGRvYnUgcmVzdGUgcHJvc2ltIHByZXMgcG9kcG9ydS5cclxuXHJcblxyXG5FTkdM
SVNIOlxyXG5UaGUgb3V0YWdlIHdpbGwgYWZmZWN0IG9ubHkgdnBzQWRtaW4sIG5vdGhpbmcgZWxz
ZS4gQ29udGFjdCBvdXIgc3VwcG9ydCBpbiBjYXNlIG9mIGFuIGVtZXJnZW5jeS4iLCJyZWFzb25f
ZW4iOiJ2cHNBZG1pbiB1cGdyYWRlIiwicGVyZm9ybWVkX2J5IjoiSmFrdWIgU2tva2FuIiwicHJv
Z3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----