Ahojte,
na NASu doslo k poskozeni jednoho z raid-z VDEVu na ZFS poolu s daty.
Stalo se to pri obnovovani toho vdevu (neco jako sub-raid-pole) po umrti
jednoho disku, kdy dalsi disk ze stejneho vdevu zacal hlasit chyby pri
cteni. Evidentne od posledniho scrubu (cca mesic zpatky) na nem vznikly
neopravitelne oblasti, ktere nejdou precist.
Zatim vime o 58 neobnovitelnych souborech, je to ve stavu, kdy ten disk
dava nejaka data, cili to nevypada ze by bylo po datech, ale vic se
dozvime, jakmile dobehne sync z nasboxu na backuper.
Prepnul jsem nasbox do readonly rezimu, aby se predeslo dalsimu
poskozovani dat a mezi tim se data syncuji na backuper (aktualne to jede
okolo 150MB/s a je to 22TB dat).
Potom, co se data dosyncuji, znovu vyrobim pool na nasboxu s bezpecnejsi
konfiguraci, aby se podobne situaci predeslo a pool vydrzel umrti vic
disku ve vsech pripadech.
Tem, co se jich poskozena data tykaji, napiseme behem dne mail se
seznamem poskozenych souboru.
Budu dal updatovat o prubehu, jakmile bude dalsi progress.
/snajpa
-------- Forwarded Message --------
Subject: [rt.vpsfree.cz #14650] Problémy s napájením
Date: Sat, 30 Jul 2016 19:15:42 +0200
From: Master Internet s.r.o. via RT <podpora(a)vpsfree.cz>
Reply-To: podpora(a)vpsfree.cz
Sat Jul 30 19:15:42 2016: Request 14650 was acted upon.
Transaction: Ticket created by info(a)master.cz
Queue: podpora
Subject: Problémy s napájením
Owner: Nobody
Requestors: info(a)master.cz
Status: new
Ticket <URL: https://rt.vpsfree.cz/rt/Ticket/Display.html?id=14650 >
Vážený zákazníku,
dnes v odpoledních hodinách jsme řešili výpadek napájení v pražském
datovém centru MasterDC.
Příčinou výpadku byla pravděpodobně lidská chyba při přepínání části
technologií na záložní napájecí větev z důvodu urgentního technického
zásahu.
Napájení na obou větvích plno plně obnoveno do 30 minut.
Můžeme vás ubezpečit, že situaci dále monitorujeme, analyzujeme jak
technický problém na jedné z napájecích větví tak proces krizového
manuálního zásahu.
Za výpadek napájení a způsobené obtíže se vám tímto omlouváme. Pokud
potíže přetrvávají, neváhejte prosím kontaktovat naši technickou podporu.
Pracovníci supportu jsou vám plně k dispozici.
Přejeme klidný víkend
Master Internet, s.r.o.
http://www.master.cz/
info(a)master.cz
Pokud si nepřejete zasílat informační sdělení tohoto typu, odškrtněte
prosím v zákaznickém informačním systému (master.cz/cis) položku
"posílat zprávy emailem".
Čas a datum výpadku: 2016-07-29 02:46
Očekavaná délka: minut
Výpadek se týká serverů: node7.prg
Důvod: Kernel lockup
Detailnější popis: Problemy s ZFS ARC dostaly node do kolen, az se na tom kernel kompletne zasekl.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2016-07-29 02:46
Estimated duration: minutes
What's affected: node7.prg
Reason: Kernel lockup
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTYtMDctMjkgMDI6NDYiLCJkdXJhdGlvbiI6IiIsInNlcnZlcnMiOlsibm9kZTcucHJnIl0sInJl
YXNvbl9jcyI6Iktlcm5lbCBsb2NrdXAiLCJkZXNjcmlwdGlvbl9jcyI6IlByb2JsZW15IHMgWkZT
IEFSQyBkb3N0YWx5IG5vZGUgZG8ga29sZW4sIGF6IHNlIG5hIHRvbSBrZXJuZWwga29tcGxldG5l
IHphc2VrbC4iLCJyZWFzb25fZW4iOiJLZXJuZWwgbG9ja3VwIiwicGVyZm9ybWVkX2J5IjoiUGF2
ZWwgU25hamRyIiwicHJvZ3Jlc3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2016-07-24 02:00
Očekavaná délka: 60 minut
Výpadek se týká serverů: node7.prg, node10.prg, vpsadmin.vpsfree.cz
Důvod: Vymena vadne RAM + kernel update
Detailnější popis: Pametove ECC moduly v tech dvou serverech hazi opravitelne chyby, tak je vymenime. A rovnou s tim svezeme update kernelu (a zfs samozrejme k tomu).
Na node10 je k tomu vpsAdmin, ten bude po tu dobu nedostupny.
Výpadek vykonává: Pavel Snajdr, Richard Marko
ENGLISH:
Date and time: 2016-07-24 02:00
Estimated duration: 60 minutes
What's affected: node7.prg, node10.prg, vpsadmin.vpsfree.cz
Reason: Bad RAM replacement + kernel update
Performed by: Pavel Snajdr, Richard Marko
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNi0w
Ny0yNCAwMjowMCIsImR1cmF0aW9uIjoiNjAiLCJzZXJ2ZXJzIjpbIm5vZGU3LnByZyIsIm5vZGUx
MC5wcmciLCJ2cHNhZG1pbi52cHNmcmVlLmN6Il0sInJlYXNvbl9jcyI6IlZ5bWVuYSB2YWRuZSBS
QU0gKyBrZXJuZWwgdXBkYXRlIiwiZGVzY3JpcHRpb25fY3MiOiJQYW1ldG92ZSBFQ0MgbW9kdWx5
IHYgdGVjaCBkdm91IHNlcnZlcmVjaCBoYXppIG9wcmF2aXRlbG5lIGNoeWJ5LCB0YWsgamUgdnlt
ZW5pbWUuIEEgcm92bm91IHMgdGltIHN2ZXplbWUgdXBkYXRlIGtlcm5lbHUgKGEgemZzIHNhbW96
cmVqbWUgayB0b211KS5cclxuXHJcbk5hIG5vZGUxMCBqZSBrIHRvbXUgdnBzQWRtaW4sIHRlbiBi
dWRlIHBvIHR1IGRvYnUgbmVkb3N0dXBueS4iLCJyZWFzb25fZW4iOiJCYWQgUkFNIHJlcGxhY2Vt
ZW50ICsga2VybmVsIHVwZGF0ZSIsInBlcmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciwgUmljaGFy
ZCBNYXJrbyIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2016-07-24 02:00
Očekavaná délka: 60 minut
Výpadek se týká serverů: node9.prg
Důvod: Vymena vadneho disku + kernel update
Detailnější popis: Vymenime disk a zaroven poaktualizujeme kernel+zfs.
Výpadek vykonává: Pavel Snajdr, Richard Marko
ENGLISH:
Date and time: 2016-07-24 02:00
Estimated duration: 60 minutes
What's affected: node9.prg
Reason: Bad disk replacement + kernel update
Performed by: Pavel Snajdr, Richard Marko
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNi0w
Ny0yNCAwMjowMCIsImR1cmF0aW9uIjoiNjAiLCJzZXJ2ZXJzIjpbIm5vZGU5LnByZyJdLCJyZWFz
b25fY3MiOiJWeW1lbmEgdmFkbmVobyBkaXNrdSArIGtlcm5lbCB1cGRhdGUiLCJkZXNjcmlwdGlv
bl9jcyI6IlZ5bWVuaW1lIGRpc2sgYSB6YXJvdmVuIHBvYWt0dWFsaXp1amVtZSBrZXJuZWwremZz
LiIsInJlYXNvbl9lbiI6IkJhZCBkaXNrIHJlcGxhY2VtZW50ICsga2VybmVsIHVwZGF0ZSIsInBl
cmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciwgUmljaGFyZCBNYXJrbyIsInByb2dyZXNzX3VwZGF0
ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2016-07-24 00:00
Očekavaná délka: 60 minut
Výpadek se týká serverů: backuper.prg
Důvod: Pridani 10Gbit sitovky
Detailnější popis: Abychom mohli backuper pripojit k infrastrukture rychleji, musime do nej pridat sitovku.
Zaroven se bude dost hodit pri syncovani dat z backuperu na nasbox, kvuli reinstalaci backuperu.
Výpadek vykonává: Pavel Snajdr, Richard Marko
ENGLISH:
Date and time: 2016-07-24 00:00
Estimated duration: 60 minutes
What's affected: backuper.prg
Reason:
Performed by: Pavel Snajdr, Richard Marko
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNi0w
Ny0yNCAwMDowMCIsImR1cmF0aW9uIjoiNjAiLCJzZXJ2ZXJzIjpbImJhY2t1cGVyLnByZyJdLCJy
ZWFzb25fY3MiOiJQcmlkYW5pIDEwR2JpdCBzaXRvdmt5IiwiZGVzY3JpcHRpb25fY3MiOiJBYnlj
aG9tIG1vaGxpIGJhY2t1cGVyIHByaXBvaml0IGsgaW5mcmFzdHJ1a3R1cmUgcnljaGxlamksIG11
c2ltZSBkbyBuZWogcHJpZGF0IHNpdG92a3UuXHJcblxyXG5aYXJvdmVuIHNlIGJ1ZGUgZG9zdCBo
b2RpdCBwcmkgc3luY292YW5pIGRhdCB6IGJhY2t1cGVydSBuYSBuYXNib3gsIGt2dWxpIHJlaW5z
dGFsYWNpIGJhY2t1cGVydS5cclxuXHJcbiIsInJlYXNvbl9lbiI6IiIsInBlcmZvcm1lZF9ieSI6
IlBhdmVsIFNuYWpkciwgUmljaGFyZCBNYXJrbyIsInByb2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2016-07-23 23:00
Očekavaná délka: 240 minut
Výpadek se týká serverů: nasbox.prg
Důvod: nasbox hardware upgrade
Detailnější popis: Prisel cas na velky upgrade NAS serveru, je toho hodne, takze to asi bude chvili trvat, nez to vsechno udelame:
Pridame mu dalsi CPU, RAM a radic. Potom ho premistime do druheho racku v ramci DC a pripravime na 10Gbit propojeni s backuperem v prvnim racku.
Nakonec pripojime novy JBOD s 44 dalsimi 3TB disky a jednim SSD.
Rozsireni NASu bude potreba pro planovanou reinstallaci backuperu, kteryzto ma poskozena metadata poolu (data jsou v pohode, primountovat to jde, ale par disku ma kvuli chybe prepsane labely).
Výpadek vykonává: Pavel Snajdr, Richard Marko
ENGLISH:
Date and time: 2016-07-23 23:00
Estimated duration: 240 minutes
What's affected: nasbox.prg
Reason: nasbox hardware upgrade
Performed by: Pavel Snajdr, Richard Marko
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiUGxhbm92YW55IiwidHlwZV9lbiI6IlBsYW5uZWQiLCJkYXRlIjoiMjAxNi0w
Ny0yMyAyMzowMCIsImR1cmF0aW9uIjoiMjQwIiwic2VydmVycyI6WyJuYXNib3gucHJnIl0sInJl
YXNvbl9jcyI6Im5hc2JveCBoYXJkd2FyZSB1cGdyYWRlIiwiZGVzY3JpcHRpb25fY3MiOiJQcmlz
ZWwgY2FzIG5hIHZlbGt5IHVwZ3JhZGUgTkFTIHNlcnZlcnUsIGplIHRvaG8gaG9kbmUsIHRha3pl
IHRvIGFzaSBidWRlIGNodmlsaSB0cnZhdCwgbmV6IHRvIHZzZWNobm8gdWRlbGFtZTpcclxuXHJc
blByaWRhbWUgbXUgZGFsc2kgQ1BVLCBSQU0gYSByYWRpYy4gUG90b20gaG8gcHJlbWlzdGltZSBk
byBkcnVoZWhvIHJhY2t1IHYgcmFtY2kgREMgYSBwcmlwcmF2aW1lIG5hIDEwR2JpdCBwcm9wb2pl
bmkgcyBiYWNrdXBlcmVtIHYgcHJ2bmltIHJhY2t1LlxyXG5cclxuTmFrb25lYyBwcmlwb2ppbWUg
bm92eSBKQk9EIHMgNDQgZGFsc2ltaSAzVEIgZGlza3kgYSBqZWRuaW0gU1NELlxyXG5cclxuUm96
c2lyZW5pIE5BU3UgYnVkZSBwb3RyZWJhIHBybyBwbGFub3Zhbm91IHJlaW5zdGFsbGFjaSBiYWNr
dXBlcnUsIGt0ZXJ5enRvIG1hIHBvc2tvemVuYSBtZXRhZGF0YSBwb29sdSAoZGF0YSBqc291IHYg
cG9ob2RlLCBwcmltb3VudG92YXQgdG8gamRlLCBhbGUgcGFyIGRpc2t1IG1hIGt2dWxpIGNoeWJl
IHByZXBzYW5lIGxhYmVseSkuXHJcbiIsInJlYXNvbl9lbiI6Im5hc2JveCBoYXJkd2FyZSB1cGdy
YWRlIiwicGVyZm9ybWVkX2J5IjoiUGF2ZWwgU25hamRyLCBSaWNoYXJkIE1hcmtvIiwicHJvZ3Jl
c3NfdXBkYXRlcyI6IiJ9
-----END BASE64 ENCODED PARSEABLE JSON-----
Čas a datum výpadku: 2016-07-21 15:00
Očekavaná délka: 15:22 minut
Výpadek se týká serverů: node1.pgnd
Důvod: Kernel dead
Detailnější popis: Kompletni umrti systemu, nereagoval ani na keypress na konzoli.
Výpadek vykonává: Pavel Snajdr
ENGLISH:
Date and time: 2016-07-21 15:00
Estimated duration: 15:22 minutes
What's affected: node1.pgnd
Reason: Kernel dead
Performed by: Pavel Snajdr
-----BEGIN BASE64 ENCODED PARSEABLE JSON-----
eyJ0eXBlX2NzIjoiTmVwbGFub3ZhbnkiLCJ0eXBlX2VuIjoiVW5wbGFubmVkIiwiZGF0ZSI6IjIw
MTYtMDctMjEgMTU6MDAiLCJkdXJhdGlvbiI6IjE1OjIyIiwic2VydmVycyI6WyJub2RlMS5wZ25k
Il0sInJlYXNvbl9jcyI6Iktlcm5lbCBkZWFkIiwiZGVzY3JpcHRpb25fY3MiOiJLb21wbGV0bmkg
dW1ydGkgc3lzdGVtdSwgbmVyZWFnb3ZhbCBhbmkgbmEga2V5cHJlc3MgbmEga29uem9saS4iLCJy
ZWFzb25fZW4iOiJLZXJuZWwgZGVhZCIsInBlcmZvcm1lZF9ieSI6IlBhdmVsIFNuYWpkciIsInBy
b2dyZXNzX3VwZGF0ZXMiOiIifQ==
-----END BASE64 ENCODED PARSEABLE JSON-----