Ahoj,
za sebe jsem spis pro variantu to rollbacknout vse v planovanem
vypadku nez pak resit nejaky neprijemny random :)
Jirka
--
-------------------------------------------------
Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01
Telefon: +420 724 330 493 | Web:
On 05. 08. 19 12:25, Pavel Snajdr wrote:
Cauko,
no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na
0.8.1 “stable” release, jenze na nem hitujeme hned tri bugy, oproti
rc2, kde nas netrapilo nic.
Nejvetsi WTF je toto:
https://github.com/zfsonlinux/zfs/issues/8673
Tam jde o nejakou strasne nestastnou race condition, kterou dojde k
tomu, ze objekt, do kteryho se zapisuje asynchronnima zapisama, je v
jednu chvili z pohledu ZFS mensi, nez zapis, co do nej zamiri. Stane
se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a
pomenila svuj obsah na nekterych strojich i na nekolikrat.
Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti
k deadlocku; pravdepodobne za to muzou zmeny, ktere byly
backportovany i do starsich releases, 0.7.11 a dal tim trpi taktez.
Ale zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola
ZFS internals, takhle zblizka dovnitr jsem jeste videt nepotreboval.
A s tim zamykanim dnodes vs. jemna interakce s ARC a ne uplne
systematicky doresenou reclaim path, je to docela komplexni peklo na
palici :)) Existuje totiz nekolik cest, odkud se oproti Solarisu i
FreeBSD da na ZFS v jadre tlacit, aby uvolnilo pamet; nedostava to
tak komplexni testovani, jak by melo. Dobrou zpravou je, ze na kazdy
vetsi vyreseny WTF bug vznikaji testy a v pristich releasech by uz se
to nemelo opakovat... Spatnou zpravou je, ze nad tak starym jadrem uz
to neprovozujou ani v LLNL, takze vz nodu u nas uz se novejsi verze
ZFS nejspis netykaji.
No a posledni annoying bug je s paralelnim mountem vs. existujicimi
nonempty mounty. Paralel mount kod se s neurcitosti dovede vysekat po
namountovani dvou tri datasetu a zbytek proste nenamountuje. Tak se
stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky
a zbytek nejde ani mountnout.
Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.
Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel
jsem na to, ze bude lepsi rollbacknout a venovat se dal nonzombie
kernelum, tj. vpsAdminOS.
Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou
za par dni, nepredvidatelne a jen pod velkou specifickou zatezi
(vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat
vsechno kvuli rollbacku na 0.8.0-rc2?
Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na
rc2 az po padu; je to na min celkoveho vypadku, ale mozna muze ten
vypadek prijit v spatnou, denni, dobu.
Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen
neco, nebo takhle?
/snajpa
On 5 Aug 2019, at 05:43, zd nex <zdnexnet(a)gmail.com
<mailto:zdnexnet@gmail.com>> wrote:
Ahojte,
zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?
Zdenek
_______________________________________________
Community-list mailing list
Community-list(a)lists.vpsfree.cz <mailto:Community-list@lists.vpsfree.cz>
http://lists.vpsfree.cz/listinfo/community-list
_______________________________________________
Community-list mailing list
Community-list(a)lists.vpsfree.cz
http://lists.vpsfree.cz/listinfo/community-list
_______________________________________________
Community-list mailing list
Community-list(a)lists.vpsfree.cz