Pustil jsem cely send odznova.
Ten disk, ktery failnul pri resilveru, vraci poskozena data, coz sendy
vetsiny datasetu prerusilo nahodne v procesu, aniz by cokoliv kamkoliv
zahlasilo. Bohuzel kvuli tomu, jak jsou ta data poskozena, jsou ty sendy
poprerusovane tak, ze to uz vypadalo, ze mame vetsinu dat syncnutych,
takze jsem se ted pul dne divil nad tim, co vyrabel rsync pri syncu
nekterych datasetu. Kvuli atime a podobnym zmenam metadat obsahuje
vetsina datasetu chybne bloky, i kdyz na nich jsou data, ktera se dlouho
nemenila - a tam je prave vetsina tech chyb...
Nikde, ani v logu, ani zpool status, se nic neprojevilo, abych na to mel
jak prijit, navic se vetsina z tech spatne syncnutych datasetu normalne
na backuperu pripojila, protoze se k na ne dostal validni zstream pri recv.
Slo by to dorsyncovat a nemusel bych ten send poustet znovu, kdyby to na
nekterych datasetech neznamenalo projit velke mnozstvi malych souboru,
coz pri zabrzdenem poli s diskem, co zdrzuje pri cteni cele pole,
vychazi na silene dlouho.
Nezbylo nez potunit kernel parametry ZFS, o kterych jsem do ted nevedel
a pustit send znovu.
Ted uz by mel send odignorovat chyby a doposlat datasety do konce, bez
chybnych souboru.
Az budu mit tenhle zapas za sebou, budu mit dost zabavy s replikovanim
tehle situace a reportovanim bugu na ZFS on Linux, jelikoz to
reportovani chyb tam proste neni doladene - kdybych o tech chybach pri
sendu vedel, mohli jsme usetrit minimalne 2 dny, jelikoz bych ten send
pustil "spravne" mnohem driv :(
/snajpa
On 07/26/2016 03:41 AM, Pavel Snajdr wrote:
Ahojte,
na NASu doslo k poskozeni jednoho z raid-z VDEVu na ZFS poolu s daty.
Stalo se to pri obnovovani toho vdevu (neco jako sub-raid-pole) po umrti
jednoho disku, kdy dalsi disk ze stejneho vdevu zacal hlasit chyby pri
cteni. Evidentne od posledniho scrubu (cca mesic zpatky) na nem vznikly
neopravitelne oblasti, ktere nejdou precist.
Zatim vime o 58 neobnovitelnych souborech, je to ve stavu, kdy ten disk
dava nejaka data, cili to nevypada ze by bylo po datech, ale vic se
dozvime, jakmile dobehne sync z nasboxu na backuper.
Prepnul jsem nasbox do readonly rezimu, aby se predeslo dalsimu
poskozovani dat a mezi tim se data syncuji na backuper (aktualne to jede
okolo 150MB/s a je to 22TB dat).
Potom, co se data dosyncuji, znovu vyrobim pool na nasboxu s bezpecnejsi
konfiguraci, aby se podobne situaci predeslo a pool vydrzel umrti vic
disku ve vsech pripadech.
Tem, co se jich poskozena data tykaji, napiseme behem dne mail se
seznamem poskozenych souboru.
Budu dal updatovat o prubehu, jakmile bude dalsi progress.
/snajpa
_______________________________________________
Outage-list mailing list
Outage-list(a)lists.vpsfree.cz
http://lists.vpsfree.cz/listinfo/outage-list