Ahojte,
na NASu doslo k poskozeni jednoho z raid-z VDEVu na ZFS poolu s daty.
Stalo se to pri obnovovani toho vdevu (neco jako sub-raid-pole) po umrti
jednoho disku, kdy dalsi disk ze stejneho vdevu zacal hlasit chyby pri
cteni. Evidentne od posledniho scrubu (cca mesic zpatky) na nem vznikly
neopravitelne oblasti, ktere nejdou precist.
Zatim vime o 58 neobnovitelnych souborech, je to ve stavu, kdy ten disk
dava nejaka data, cili to nevypada ze by bylo po datech, ale vic se
dozvime, jakmile dobehne sync z nasboxu na backuper.
Prepnul jsem nasbox do readonly rezimu, aby se predeslo dalsimu
poskozovani dat a mezi tim se data syncuji na backuper (aktualne to jede
okolo 150MB/s a je to 22TB dat).
Potom, co se data dosyncuji, znovu vyrobim pool na nasboxu s bezpecnejsi
konfiguraci, aby se podobne situaci predeslo a pool vydrzel umrti vic
disku ve vsech pripadech.
Tem, co se jich poskozena data tykaji, napiseme behem dne mail se
seznamem poskozenych souboru.
Budu dal updatovat o prubehu, jakmile bude dalsi progress.
/snajpa
Čas a datum výpadku: 2016-08-01 21:12
Očekavaná délka: 30 minut
Výpadek se týká serverů: node6.prg
Důvod: Kernel lockup
Detailnější popis:
Výpadek vykonává: Pavel Snajdr, Richard Marko
ENGLISH:
Date and time: 2016-08-01 21:12
Estimated duration: 30 minutes
What's affected: node6.prg
Reason: Kernel lockup
Performed by: Pavel Snajdr, Richard Marko
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTYtMDgtMDEgMjE6MTIiLCJkdXJhdGlvbiI6IjMwIiwic2VydmVycyI6WyJub2RlNi5wcmciXSwi
cmVhc29uX2NzIjoiS2VybmVsIGxvY2t1cCIsImRlc2NyaXB0aW9uX2NzIjoiIiwicmVhc29uX2Vu
IjoiS2VybmVsIGxvY2t1cCIsInBlcmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciwgUmljaGFyZCBN
YXJrbyIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----