Pustil jsem cely send odznova.
Ten disk, ktery failnul pri resilveru, vraci poskozena data, coz sendy vetsiny datasetu prerusilo nahodne v procesu, aniz by cokoliv kamkoliv zahlasilo. Bohuzel kvuli tomu, jak jsou ta data poskozena, jsou ty sendy poprerusovane tak, ze to uz vypadalo, ze mame vetsinu dat syncnutych, takze jsem se ted pul dne divil nad tim, co vyrabel rsync pri syncu nekterych datasetu. Kvuli atime a podobnym zmenam metadat obsahuje vetsina datasetu chybne bloky, i kdyz na nich jsou data, ktera se dlouho nemenila - a tam je prave vetsina tech chyb...
Nikde, ani v logu, ani zpool status, se nic neprojevilo, abych na to mel jak prijit, navic se vetsina z tech spatne syncnutych datasetu normalne na backuperu pripojila, protoze se k na ne dostal validni zstream pri recv.
Slo by to dorsyncovat a nemusel bych ten send poustet znovu, kdyby to na nekterych datasetech neznamenalo projit velke mnozstvi malych souboru, coz pri zabrzdenem poli s diskem, co zdrzuje pri cteni cele pole, vychazi na silene dlouho.
Nezbylo nez potunit kernel parametry ZFS, o kterych jsem do ted nevedel a pustit send znovu.
Ted uz by mel send odignorovat chyby a doposlat datasety do konce, bez chybnych souboru.
Az budu mit tenhle zapas za sebou, budu mit dost zabavy s replikovanim tehle situace a reportovanim bugu na ZFS on Linux, jelikoz to reportovani chyb tam proste neni doladene - kdybych o tech chybach pri sendu vedel, mohli jsme usetrit minimalne 2 dny, jelikoz bych ten send pustil "spravne" mnohem driv :(
/snajpa
On 07/26/2016 03:41 AM, Pavel Snajdr wrote:
Ahojte,
na NASu doslo k poskozeni jednoho z raid-z VDEVu na ZFS poolu s daty.
Stalo se to pri obnovovani toho vdevu (neco jako sub-raid-pole) po umrti jednoho disku, kdy dalsi disk ze stejneho vdevu zacal hlasit chyby pri cteni. Evidentne od posledniho scrubu (cca mesic zpatky) na nem vznikly neopravitelne oblasti, ktere nejdou precist.
Zatim vime o 58 neobnovitelnych souborech, je to ve stavu, kdy ten disk dava nejaka data, cili to nevypada ze by bylo po datech, ale vic se dozvime, jakmile dobehne sync z nasboxu na backuper.
Prepnul jsem nasbox do readonly rezimu, aby se predeslo dalsimu poskozovani dat a mezi tim se data syncuji na backuper (aktualne to jede okolo 150MB/s a je to 22TB dat).
Potom, co se data dosyncuji, znovu vyrobim pool na nasboxu s bezpecnejsi konfiguraci, aby se podobne situaci predeslo a pool vydrzel umrti vic disku ve vsech pripadech.
Tem, co se jich poskozena data tykaji, napiseme behem dne mail se seznamem poskozenych souboru.
Budu dal updatovat o prubehu, jakmile bude dalsi progress.
/snajpa
Outage-list mailing list Outage-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/outage-list