[vpsFree.cz: community-list] Opakované výpadky ZFS

Jiří Pucherna pucherna at reklalink.cz
Mon Aug 5 12:36:16 CEST 2019


Ahoj,

za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku 
nez pak resit nejaky neprijemny random :)

Jirka

-- 
-------------------------------------------------
Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01
Telefon: +420 724 330 493 | Web: http://www.reklalink.cz

On 05. 08. 19 12:25, Pavel Snajdr wrote:
> Cauko,
>
> no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na 
> 0.8.1 “stable” release, jenze na nem hitujeme hned tri bugy, oproti 
> rc2, kde nas netrapilo nic.
>
> Nejvetsi WTF je toto:
>
> https://github.com/zfsonlinux/zfs/issues/8673
>
> Tam jde o nejakou strasne nestastnou race condition, kterou dojde k 
> tomu, ze objekt, do kteryho se zapisuje asynchronnima zapisama, je v 
> jednu chvili z pohledu ZFS mensi, nez zapis, co do nej zamiri. Stane 
> se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a 
> pomenila svuj obsah na nekterych strojich i na nekolikrat.
>
> Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k 
> deadlocku; pravdepodobne za to muzou zmeny, ktere byly backportovany i 
> do starsich releases, 0.7.11 a dal tim trpi taktez. Ale zatim se mi 
> nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, 
> takhle zblizka dovnitr jsem jeste videt nepotreboval. A s tim 
> zamykanim dnodes vs. jemna interakce s ARC a ne uplne systematicky 
> doresenou reclaim path, je to docela komplexni peklo na palici :)) 
> Existuje totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na 
> ZFS v jadre tlacit, aby uvolnilo pamet; nedostava to tak komplexni 
> testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi vyreseny 
> WTF bug vznikaji testy a v pristich releasech by uz se to nemelo 
> opakovat... Spatnou zpravou je, ze nad tak starym jadrem uz to 
> neprovozujou ani v LLNL, takze vz nodu u nas uz se novejsi verze ZFS 
> nejspis netykaji.
>
> No a posledni annoying bug je s paralelnim mountem vs. existujicimi 
> nonempty mounty. Paralel mount kod se s neurcitosti dovede vysekat po 
> namountovani dvou tri datasetu a zbytek proste nenamountuje. Tak se 
> stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a 
> zbytek nejde ani mountnout.
>
> Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.
>
> Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel 
> jsem na to, ze bude lepsi rollbacknout a venovat se dal nonzombie 
> kernelum, tj. vpsAdminOS.
>
> Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou 
> za par dni, nepredvidatelne a jen pod velkou specifickou zatezi 
> (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat vsechno 
> kvuli rollbacku na 0.8.0-rc2?
>
> Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na 
> rc2 az po padu; je to na min celkoveho vypadku, ale mozna muze ten 
> vypadek prijit v spatnou, denni, dobu.
>
> Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen 
> neco, nebo takhle?
>
> /snajpa
>
>
>
> On 5 Aug 2019, at 05:43, zd nex <zdnexnet at gmail.com 
> <mailto:zdnexnet at gmail.com>> wrote:
>
>> Ahojte,
>>
>> zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?
>>
>>
>> Zdenek
>> _______________________________________________
>> Community-list mailing list
>> Community-list at lists.vpsfree.cz <mailto:Community-list at lists.vpsfree.cz>
>> http://lists.vpsfree.cz/listinfo/community-list
>
> _______________________________________________
> Community-list mailing list
> Community-list at lists.vpsfree.cz
> http://lists.vpsfree.cz/listinfo/community-list

-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.vpsfree.cz/pipermail/community-list/attachments/20190805/815229f7/attachment-0001.html>


More information about the Community-list mailing list