[vpsFree: outage-list] NAS read-only, poskozeny filesystem

Pavel Snajdr snajpa at snajpa.net
Fri Jul 29 05:04:55 CEST 2016


Pustil jsem cely send odznova.

Ten disk, ktery failnul pri resilveru, vraci poskozena data, coz sendy
vetsiny datasetu prerusilo nahodne v procesu, aniz by cokoliv kamkoliv
zahlasilo. Bohuzel kvuli tomu, jak jsou ta data poskozena, jsou ty sendy
poprerusovane tak, ze to uz vypadalo, ze mame vetsinu dat syncnutych,
takze jsem se ted pul dne divil nad tim, co vyrabel rsync pri syncu
nekterych datasetu. Kvuli atime a podobnym zmenam metadat obsahuje
vetsina datasetu chybne bloky, i kdyz na nich jsou data, ktera se dlouho
nemenila - a tam je prave vetsina tech chyb...

Nikde, ani v logu, ani zpool status, se nic neprojevilo, abych na to mel
jak prijit, navic se vetsina z tech spatne syncnutych datasetu normalne
na backuperu pripojila, protoze se k na ne dostal validni zstream pri recv.

Slo by to dorsyncovat a nemusel bych ten send poustet znovu, kdyby to na
nekterych datasetech neznamenalo projit velke mnozstvi malych souboru,
coz pri zabrzdenem poli s diskem, co zdrzuje pri cteni cele pole,
vychazi na silene dlouho.

Nezbylo nez potunit kernel parametry ZFS, o kterych jsem do ted nevedel
a pustit send znovu.

Ted uz by mel send odignorovat chyby a doposlat datasety do konce, bez
chybnych souboru.

Az budu mit tenhle zapas za sebou, budu mit dost zabavy s replikovanim
tehle situace a reportovanim bugu na ZFS on Linux, jelikoz to
reportovani chyb tam proste neni doladene - kdybych o tech chybach pri
sendu vedel, mohli jsme usetrit minimalne 2 dny, jelikoz bych ten send
pustil "spravne" mnohem driv :(

/snajpa

On 07/26/2016 03:41 AM, Pavel Snajdr wrote:
> Ahojte,
> 
> na NASu doslo k poskozeni jednoho z raid-z VDEVu na ZFS poolu s daty.
> 
> Stalo se to pri obnovovani toho vdevu (neco jako sub-raid-pole) po umrti
> jednoho disku, kdy dalsi disk ze stejneho vdevu zacal hlasit chyby pri
> cteni. Evidentne od posledniho scrubu (cca mesic zpatky) na nem vznikly
> neopravitelne oblasti, ktere nejdou precist.
> 
> Zatim vime o 58 neobnovitelnych souborech, je to ve stavu, kdy ten disk
> dava nejaka data, cili to nevypada ze by bylo po datech, ale vic se
> dozvime, jakmile dobehne sync z nasboxu na backuper.
> 
> Prepnul jsem nasbox do readonly rezimu, aby se predeslo dalsimu
> poskozovani dat a mezi tim se data syncuji na backuper (aktualne to jede
> okolo 150MB/s a je to 22TB dat).
> 
> Potom, co se data dosyncuji, znovu vyrobim pool na nasboxu s bezpecnejsi
> konfiguraci, aby se podobne situaci predeslo a pool vydrzel umrti vic
> disku ve vsech pripadech.
> 
> Tem, co se jich poskozena data tykaji, napiseme behem dne mail se
> seznamem poskozenych souboru.
> 
> Budu dal updatovat o prubehu, jakmile bude dalsi progress.
> 
> /snajpa
> 
> 
> 
> _______________________________________________
> Outage-list mailing list
> Outage-list at lists.vpsfree.cz
> http://lists.vpsfree.cz/listinfo/outage-list
> 

-------------- next part --------------
A non-text attachment was scrubbed...
Name: signature.asc
Type: application/pgp-signature
Size: 213 bytes
Desc: OpenPGP digital signature
URL: <http://lists.vpsfree.cz/pipermail/outage-list/attachments/20160729/02529836/attachment.pgp>


More information about the Outage-list mailing list