[vpsFree.cz: community-list] Opakované výpadky ZFS

Jakub Fišer kuba at ufiseru.cz
Mon Aug 5 13:43:38 CEST 2019


hoj,


August 5, 2019 12:46 PM, "Jan Domankus" <jan.domankus at gmail.com> wrote:

> S tymto suhlasim, tiez sa mi zda rozumnejsi planovany vypadok, ako potom riesit pripadne upratanie
> FS v pripade neplanovaneho vypadku (poskodenie FS je asi menej pravdepodobne v pripade planovaneho
> vypadku).


"poškodit" ZFS je imho o dost náročnější, než to jen nechat slítnout na nějaký panice :)


Nicméně co se výpadku týče, preferuju plánovaný a kontrolovaný rolling updaty někdy v rozmezí 01:00 - 05:00. Imho je to lepší i pro adminy, hlavně proto, že je to celý jak technicky, tak procesně víc pod kontrolou, je tam míň neznámých vstupních podmínek, dají se dělat canary testy a hlavně lidi nebudou dělat hromadný nálety na IRCčku :)


 -miky



> 
> J.
> 
> On 05. 08. 2019 12:36, Jiří Pucherna wrote:
> 
>> Ahoj,
>> 
>> za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku nez pak resit nejaky
>> neprijemny random :)
>> 
>> Jirka
>> 
>> -- 
>> -------------------------------------------------
>> Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01
>> Telefon: +420 724 330 493 | Web: http://www.reklalink.cz
>> On 05. 08. 19 12:25, Pavel Snajdr wrote:
>> 
>>> Cauko,
>>> 
>>> no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na 0.8.1 “stable” release, jenze na
>>> nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.
>>> 
>>> Nejvetsi WTF je toto:
>>> 
>>> https://github.com/zfsonlinux/zfs/issues/8673
>>> 
>>> Tam jde o nejakou strasne nestastnou race condition, kterou dojde k tomu, ze objekt, do kteryho se
>>> zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS mensi, nez zapis, co do nej
>>> zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a pomenila svuj obsah
>>> na nekterych strojich i na nekolikrat.
>>> 
>>> Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k deadlocku; pravdepodobne za
>>> to muzou zmeny, ktere byly backportovany i do starsich releases, 0.7.11 a dal tim trpi taktez. Ale
>>> zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, takhle zblizka
>>> dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs. jemna interakce s ARC a ne
>>> uplne systematicky doresenou reclaim path, je to docela komplexni peklo na palici :)) Existuje
>>> totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v jadre tlacit, aby uvolnilo
>>> pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi
>>> vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to nemelo opakovat... Spatnou
>>> zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL, takze vz nodu u nas uz se
>>> novejsi verze ZFS nejspis netykaji.
>>> 
>>> No a posledni annoying bug je s paralelnim mountem vs. existujicimi nonempty mounty. Paralel mount
>>> kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu a zbytek proste nenamountuje.
>>> Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a zbytek nejde ani
>>> mountnout.
>>> 
>>> Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.
>>> 
>>> Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel jsem na to, ze bude lepsi
>>> rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS.
>>> Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou za par dni, nepredvidatelne a
>>> jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat
>>> vsechno kvuli rollbacku na 0.8.0-rc2?
>>> 
>>> Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na rc2 az po padu; je to na min
>>> celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni, dobu.
>>> 
>>> Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen neco, nebo takhle?
>>> 
>>> /snajpa
>>> 
>>> On 5 Aug 2019, at 05:43, zd nex <zdnexnet at gmail.com> wrote:
>>> 
>>>> Ahojte,
>>>> 
>>>> zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?
>>>> 
>>>> Zdenek
>>> 
>>>> _______________________________________________
>>>> Community-list mailing list
>>>> Community-list at lists.vpsfree.cz
>>>> http://lists.vpsfree.cz/listinfo/community-list
>>> _______________________________________________
>>> Community-list mailing list
>>> Community-list at lists.vpsfree.cz
>>> http://lists.vpsfree.cz/listinfo/community-list
>> _______________________________________________
>> Community-list mailing list
>> Community-list at lists.vpsfree.cz
>> http://lists.vpsfree.cz/listinfo/community-list

--
Jakub Fišer
Linux | DevOps | Security
+420-603 797 487


More information about the Community-list mailing list