[vpsFree.cz: community-list] Opakované výpadky ZFS

zd nex zdnexnet at gmail.com
Mon Sep 16 07:22:21 CEST 2019


Ahojte,

ok vypadá to že ZFS panic a problémy se stále asi nepodařilo vyřešit co?

po 5. 8. 2019 v 13:43 odesílatel Jakub Fišer <kuba at ufiseru.cz> napsal:

> hoj,
>
>
> August 5, 2019 12:46 PM, "Jan Domankus" <jan.domankus at gmail.com> wrote:
>
> > S tymto suhlasim, tiez sa mi zda rozumnejsi planovany vypadok, ako potom
> riesit pripadne upratanie
> > FS v pripade neplanovaneho vypadku (poskodenie FS je asi menej
> pravdepodobne v pripade planovaneho
> > vypadku).
>
>
> "poškodit" ZFS je imho o dost náročnější, než to jen nechat slítnout na
> nějaký panice :)
>
>
> Nicméně co se výpadku týče, preferuju plánovaný a kontrolovaný rolling
> updaty někdy v rozmezí 01:00 - 05:00. Imho je to lepší i pro adminy, hlavně
> proto, že je to celý jak technicky, tak procesně víc pod kontrolou, je tam
> míň neznámých vstupních podmínek, dají se dělat canary testy a hlavně lidi
> nebudou dělat hromadný nálety na IRCčku :)
>
>
>  -miky
>
>
>
> >
> > J.
> >
> > On 05. 08. 2019 12:36, Jiří Pucherna wrote:
> >
> >> Ahoj,
> >>
> >> za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku
> nez pak resit nejaky
> >> neprijemny random :)
> >>
> >> Jirka
> >>
> >> --
> >> -------------------------------------------------
> >> Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01
> >> Telefon: +420 724 330 493 | Web: http://www.reklalink.cz
> >> On 05. 08. 19 12:25, Pavel Snajdr wrote:
> >>
> >>> Cauko,
> >>>
> >>> no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na
> 0.8.1 “stable” release, jenze na
> >>> nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.
> >>>
> >>> Nejvetsi WTF je toto:
> >>>
> >>> https://github.com/zfsonlinux/zfs/issues/8673
> >>>
> >>> Tam jde o nejakou strasne nestastnou race condition, kterou dojde k
> tomu, ze objekt, do kteryho se
> >>> zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS
> mensi, nez zapis, co do nej
> >>> zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby
> promlela a pomenila svuj obsah
> >>> na nekterych strojich i na nekolikrat.
> >>>
> >>> Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k
> deadlocku; pravdepodobne za
> >>> to muzou zmeny, ktere byly backportovany i do starsich releases,
> 0.7.11 a dal tim trpi taktez. Ale
> >>> zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS
> internals, takhle zblizka
> >>> dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs.
> jemna interakce s ARC a ne
> >>> uplne systematicky doresenou reclaim path, je to docela komplexni
> peklo na palici :)) Existuje
> >>> totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v
> jadre tlacit, aby uvolnilo
> >>> pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou
> zpravou je, ze na kazdy vetsi
> >>> vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to
> nemelo opakovat... Spatnou
> >>> zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL,
> takze vz nodu u nas uz se
> >>> novejsi verze ZFS nejspis netykaji.
> >>>
> >>> No a posledni annoying bug je s paralelnim mountem vs. existujicimi
> nonempty mounty. Paralel mount
> >>> kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu
> a zbytek proste nenamountuje.
> >>> Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve
> VPSky a zbytek nejde ani
> >>> mountnout.
> >>>
> >>> Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.
> >>>
> >>> Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel
> jsem na to, ze bude lepsi
> >>> rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS.
> >>> Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou
> za par dni, nepredvidatelne a
> >>> jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd
> proces), ma cenu rebootovat
> >>> vsechno kvuli rollbacku na 0.8.0-rc2?
> >>>
> >>> Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na
> rc2 az po padu; je to na min
> >>> celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni,
> dobu.
> >>>
> >>> Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen
> neco, nebo takhle?
> >>>
> >>> /snajpa
> >>>
> >>> On 5 Aug 2019, at 05:43, zd nex <zdnexnet at gmail.com> wrote:
> >>>
> >>>> Ahojte,
> >>>>
> >>>> zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké
> problémy?
> >>>>
> >>>> Zdenek
> >>>
> >>>> _______________________________________________
> >>>> Community-list mailing list
> >>>> Community-list at lists.vpsfree.cz
> >>>> http://lists.vpsfree.cz/listinfo/community-list
> >>> _______________________________________________
> >>> Community-list mailing list
> >>> Community-list at lists.vpsfree.cz
> >>> http://lists.vpsfree.cz/listinfo/community-list
> >> _______________________________________________
> >> Community-list mailing list
> >> Community-list at lists.vpsfree.cz
> >> http://lists.vpsfree.cz/listinfo/community-list
>
> --
> Jakub Fišer
> Linux | DevOps | Security
> +420-603 797 487
> _______________________________________________
> Community-list mailing list
> Community-list at lists.vpsfree.cz
> http://lists.vpsfree.cz/listinfo/community-list
>


-- 

-- 
S pozdravem,

Zdeněk Dlauhý

Email:support at pripravto.cz
Mobil: +420 702 549 370
Web: www.pripravto.cz
-------------- next part --------------
An HTML attachment was scrubbed...
URL: <http://lists.vpsfree.cz/pipermail/community-list/attachments/20190916/6ab6cde7/attachment.html>


More information about the Community-list mailing list