Čas a datum výpadku: 2015-03-17 01:13
Očekavaná délka: 30 minut
Výpadek se týká serverů: node5.prg, node9.prg
Důvod: Zmena verze ZFS
Detailnější popis: Povedlo se mi najit verzi ZFS, ktera netrpi dnode caching problemem tak vyrazne, kdyz uz vubec to prekroceni limitu dovoli.
Jdu to tedy hned nasadit.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-17 01:13
Estimated duration: 30 minutes
What's affected: node5.prg, node9.prg
Reason: Change ZFS version
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMTcgMDE6MTMiLCJkdXJhdGlvbiI6IjMwIiwic2VydmVycyI6WyJub2RlNS5wcmciLCJu
b2RlOS5wcmciXSwicmVhc29uX2NzIjoiWm1lbmEgdmVyemUgWkZTIiwiZGVzY3JpcHRpb25fY3Mi
OiJQb3ZlZGxvIHNlIG1pIG5haml0IHZlcnppIFpGUywga3RlcmEgbmV0cnBpIGRub2RlIGNhY2hp
bmcgcHJvYmxlbWVtIHRhayB2eXJhem5lLCBrZHl6IHV6IHZ1YmVjIHRvIHByZWtyb2NlbmkgbGlt
aXR1IGRvdm9saS5cclxuXHJcbkpkdSB0byB0ZWR5IGhuZWQgbmFzYWRpdC5cclxuIiwicmVhc29u
X2VuIjoiQ2hhbmdlIFpGUyB2ZXJzaW9uIiwicGVyZm9ybWVkX2J5IjoiUGF2ZWwgU25hamRyIiwi
cHJvZ3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-16 08:30
Očekavaná délka: 240 minut
Výpadek se týká serverů: node4.prg
Důvod: Pravdepodobne umrelo SSD
Detailnější popis: Pravdepodobne umrelo SSD, situaci intenzivne resime a proverujeme.
Výpadek vykonává: Jiří Medvěd, Tomáš Srnka
ENGLISH:
Date and time: 2015-03-16 08:30
Estimated duration: 240 minutes
What's affected: node4.prg
Reason:
Performed by: Jiří Medvěd, Tomáš Srnka
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMTYgMDg6MzAiLCJkdXJhdGlvbiI6IjI0MCIsInNlcnZlcnMiOlsibm9kZTQucHJnIl0s
InJlYXNvbl9jcyI6IlByYXZkZXBvZG9ibmUgdW1yZWxvIFNTRCIsImRlc2NyaXB0aW9uX2NzIjoi
UHJhdmRlcG9kb2JuZSB1bXJlbG8gU1NELCBzaXR1YWNpIGludGVueml2bmUgcmVzaW1lIGEgcHJv
dmVydWplbWUuIiwicmVhc29uX2VuIjoiIiwicGVyZm9ybWVkX2J5IjoiSmlcdTAxNTlcdTAwZWQg
TWVkdlx1MDExYmQsIFRvbVx1MDBlMVx1MDE2MSBTcm5rYSIsInByb2dyZXNzX3VwZGF0ZXMiOiIi
fQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-16 04:31
Očekavaná délka: 30 minut
Výpadek se týká serverů: node5.prg
Důvod: Drop caches problem
Detailnější popis: Pri echo 2 > /proc/sys/vm/drop_caches se proces zaseknul v kernel space a dropuje, dokud nebudou vsechny cache prazdne. Problem je, ze na nektere cache drzi ZFS reference, takze nejdou vyprazdnit, mezi tim se ale ARC zmensila na nepouzitelnou uroven, cili musim ten stroj restartovat.
Aspon ten node zaroven dostane nejnovejsi HEAD nasi verze ZFS.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-16 04:31
Estimated duration: 30 minutes
What's affected: node5.prg
Reason: Drop caches problem
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTUtMDMtMTYgMDQ6MzEiLCJkdXJhdGlvbiI6IjMwIiwic2VydmVycyI6WyJub2RlNS5wcmciXSwi
cmVhc29uX2NzIjoiRHJvcCBjYWNoZXMgcHJvYmxlbSIsImRlc2NyaXB0aW9uX2NzIjoiUHJpIGVj
aG8gMiA+IFwvcHJvY1wvc3lzXC92bVwvZHJvcF9jYWNoZXMgc2UgcHJvY2VzIHphc2VrbnVsIHYg
a2VybmVsIHNwYWNlIGEgZHJvcHVqZSwgZG9rdWQgbmVidWRvdSB2c2VjaG55IGNhY2hlIHByYXpk
bmUuIFByb2JsZW0gamUsIHplIG5hIG5la3RlcmUgY2FjaGUgZHJ6aSBaRlMgcmVmZXJlbmNlLCB0
YWt6ZSBuZWpkb3UgdnlwcmF6ZG5pdCwgbWV6aSB0aW0gc2UgYWxlIEFSQyB6bWVuc2lsYSBuYSBu
ZXBvdXppdGVsbm91IHVyb3ZlbiwgY2lsaSBtdXNpbSB0ZW4gc3Ryb2ogcmVzdGFydG92YXQuXHJc
blxyXG5Bc3BvbiB0ZW4gbm9kZSB6YXJvdmVuIGRvc3RhbmUgbmVqbm92ZWpzaSBIRUFEIG5hc2kg
dmVyemUgWkZTLlxyXG5cclxuIiwicmVhc29uX2VuIjoiRHJvcCBjYWNoZXMgcHJvYmxlbSIsInBl
cmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2015-03-12 16:00
Očekavaná délka: 270 minut
Výpadek se týká serverů: backuper.prg
Důvod: Oprava zadniho backplane v JBOD
Detailnější popis: Pri sestavovani JBOD expanderu jsme zrejme spatne
zapojili zadni backplane, takze nam to ted
nedetekuje disky v zadni casti toho JBODu.
Aspon to si myslim, ze je pricinou, jisty si
nejsem, proto si davam casovou rezervu (a taky
nahodit to zpatky potrva nejakou dobu samo o sobe).
V tehle dobe nebudou dostupne zalohy ve VPS a ani
zalohovaci funkce vpsAdminu. Vsechno ostatni
pojede ale dal.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2015-03-12 16:00
Estimated duration: 270 minutes
What's affected: backuper.prg
Reason: Fix rear backplane in JBOD
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNS0w
My0xMiAxNjowMCIsImR1cmF0aW9uIjoiMjcwIiwic2VydmVycyI6WyJiYWNrdXBlci5wcmciXSwi
cmVhc29uX2NzIjoiT3ByYXZhIHphZG5paG8gYmFja3BsYW5lIHYgSkJPRCIsImRlc2NyaXB0aW9u
X2NzIjoiUHJpIHNlc3Rhdm92YW5pIEpCT0QgZXhwYW5kZXJ1IGpzbWUgenJlam1lIHNwYXRuZSBc
clxuemFwb2ppbGkgemFkbmkgYmFja3BsYW5lLCB0YWt6ZSBuYW0gdG8gdGVkIFxyXG5uZWRldGVr
dWplIGRpc2t5IHYgemFkbmkgY2FzdGkgdG9obyBKQk9EdS5cclxuQXNwb24gdG8gc2kgbXlzbGlt
LCB6ZSBqZSBwcmljaW5vdSwgamlzdHkgc2lcclxubmVqc2VtLCBwcm90byBzaSBkYXZhbSBjYXNv
dm91IHJlemVydnUgKGEgdGFreVxyXG5uYWhvZGl0IHRvIHpwYXRreSBwb3RydmEgbmVqYWtvdSBk
b2J1IHNhbW8gbyBzb2JlKS5cclxuXHJcblYgdGVobGUgZG9iZSBuZWJ1ZG91IGRvc3R1cG5lIHph
bG9oeSB2ZSBWUFMgYSBhbmlcclxuemFsb2hvdmFjaSBmdW5rY2UgdnBzQWRtaW51LiBWc2VjaG5v
IG9zdGF0bmlcclxucG9qZWRlIGFsZSBkYWwuXHJcblxyXG4iLCJyZWFzb25fZW4iOiJGaXggcmVh
ciBiYWNrcGxhbmUgaW4gSkJPRCIsInBlcmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciIsInByb2dy
ZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----