Opakované výpadky ZFS

List overview All Threads
Download

newer

older

Re: [vpsFree.cz: community-list]...

NixOS containers na VPS

zd nex

5 Aug 2019 5 Aug '19

3:43 a.m.

Ahojte,

zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?

Zdenek

Attachments:

attachment.html (text/html — 204 bytes)

Show replies by date

Pavel Snajdr

5 Aug 5 Aug

10:25 a.m.

Cauko,

no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na 0.8.1 “stable” release, jenze na nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.

Nejvetsi WTF je toto:

https://github.com/zfsonlinux/zfs/issues/8673

Tam jde o nejakou strasne nestastnou race condition, kterou dojde k tomu, ze objekt, do kteryho se zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS mensi, nez zapis, co do nej zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a pomenila svuj obsah na nekterych strojich i na nekolikrat.

Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k deadlocku; pravdepodobne za to muzou zmeny, ktere byly backportovany i do starsich releases, 0.7.11 a dal tim trpi taktez. Ale zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, takhle zblizka dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs. jemna interakce s ARC a ne uplne systematicky doresenou reclaim path, je to docela komplexni peklo na palici :)) Existuje totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v jadre tlacit, aby uvolnilo pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to nemelo opakovat... Spatnou zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL, takze vz nodu u nas uz se novejsi verze ZFS nejspis netykaji.

No a posledni annoying bug je s paralelnim mountem vs. existujicimi nonempty mounty. Paralel mount kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu a zbytek proste nenamountuje. Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a zbytek nejde ani mountnout.

Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.

Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel jsem na to, ze bude lepsi rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS.

Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou za par dni, nepredvidatelne a jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat vsechno kvuli rollbacku na 0.8.0-rc2?

Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na rc2 az po padu; je to na min celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni, dobu.

Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen neco, nebo takhle?

/snajpa

...

On 5 Aug 2019, at 05:43, zd nex zdnexnet@gmail.com wrote:

Ahojte,

zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?

Zdenek _______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Lukáš Němec

10:29 a.m.

Ahoj, Já si myslím že to je rozumné - rollbackovat až když to slítne. Už aby ZFS přepsali celé do Rustu a vyhnuli se těm race conditions :D

Lukáš

...

On 5 Aug 2019, at 12:25, Pavel Snajdr snajpa@snajpa.net wrote:

Cauko,

no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na 0.8.1 “stable” release, jenze na nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.

Nejvetsi WTF je toto:

https://github.com/zfsonlinux/zfs/issues/8673 https://github.com/zfsonlinux/zfs/issues/8673

Tam jde o nejakou strasne nestastnou race condition, kterou dojde k tomu, ze objekt, do kteryho se zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS mensi, nez zapis, co do nej zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a pomenila svuj obsah na nekterych strojich i na nekolikrat.

Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k deadlocku; pravdepodobne za to muzou zmeny, ktere byly backportovany i do starsich releases, 0.7.11 a dal tim trpi taktez. Ale zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, takhle zblizka dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs. jemna interakce s ARC a ne uplne systematicky doresenou reclaim path, je to docela komplexni peklo na palici :)) Existuje totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v jadre tlacit, aby uvolnilo pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to nemelo opakovat... Spatnou zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL, takze vz nodu u nas uz se novejsi verze ZFS nejspis netykaji.

No a posledni annoying bug je s paralelnim mountem vs. existujicimi nonempty mounty. Paralel mount kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu a zbytek proste nenamountuje. Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a zbytek nejde ani mountnout.

Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.

Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel jsem na to, ze bude lepsi rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS.

Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou za par dni, nepredvidatelne a jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat vsechno kvuli rollbacku na 0.8.0-rc2?

Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na rc2 az po padu; je to na min celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni, dobu.

Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen neco, nebo takhle?

/snajpa

On 5 Aug 2019, at 05:43, zd nex <zdnexnet@gmail.com mailto:zdnexnet@gmail.com> wrote:

...
Ahojte,

zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?

Zdenek _______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz mailto:Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list http://lists.vpsfree.cz/listinfo/community-list

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Jiří Pucherna

10:36 a.m.

Ahoj,

za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku nez pak resit nejaky neprijemny random :)

Jirka

-- ------------------------------------------------- Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01 Telefon: +420 724 330 493 | Web: http://www.reklalink.cz On 05. 08. 19 12:25, Pavel Snajdr wrote: > Cauko, > > no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na > 0.8.1 “stable” release, jenze na nem hitujeme hned tri bugy, oproti > rc2, kde nas netrapilo nic. > > Nejvetsi WTF je toto: > > https://github.com/zfsonlinux/zfs/issues/8673 > > Tam jde o nejakou strasne nestastnou race condition, kterou dojde k > tomu, ze objekt, do kteryho se zapisuje asynchronnima zapisama, je v > jednu chvili z pohledu ZFS mensi, nez zapis, co do nej zamiri. Stane > se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a > pomenila svuj obsah na nekterych strojich i na nekolikrat. > > Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k > deadlocku; pravdepodobne za to muzou zmeny, ktere byly backportovany i > do starsich releases, 0.7.11 a dal tim trpi taktez. Ale zatim se mi > nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, > takhle zblizka dovnitr jsem jeste videt nepotreboval. A s tim > zamykanim dnodes vs. jemna interakce s ARC a ne uplne systematicky > doresenou reclaim path, je to docela komplexni peklo na palici :)) > Existuje totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na > ZFS v jadre tlacit, aby uvolnilo pamet; nedostava to tak komplexni > testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi vyreseny > WTF bug vznikaji testy a v pristich releasech by uz se to nemelo > opakovat... Spatnou zpravou je, ze nad tak starym jadrem uz to > neprovozujou ani v LLNL, takze vz nodu u nas uz se novejsi verze ZFS > nejspis netykaji. > > No a posledni annoying bug je s paralelnim mountem vs. existujicimi > nonempty mounty. Paralel mount kod se s neurcitosti dovede vysekat po > namountovani dvou tri datasetu a zbytek proste nenamountuje. Tak se > stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a > zbytek nejde ani mountnout. > > Takze jsme vsude nainstalovali zpatky 0.8.0-rc2. > > Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel > jsem na to, ze bude lepsi rollbacknout a venovat se dal nonzombie > kernelum, tj. vpsAdminOS. > > Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou > za par dni, nepredvidatelne a jen pod velkou specifickou zatezi > (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat vsechno > kvuli rollbacku na 0.8.0-rc2? > > Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na > rc2 az po padu; je to na min celkoveho vypadku, ale mozna muze ten > vypadek prijit v spatnou, denni, dobu. > > Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen > neco, nebo takhle? > > /snajpa > > > > On 5 Aug 2019, at 05:43, zd nex <zdnexnet@gmail.com > mailto:zdnexnet@gmail.com> wrote: > >> Ahojte, >> >> zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy? >> >> >> Zdenek >> _______________________________________________ >> Community-list mailing list >> Community-list@lists.vpsfree.cz mailto:Community-list@lists.vpsfree.cz >> http://lists.vpsfree.cz/listinfo/community-list > > _______________________________________________ > Community-list mailing list > Community-list@lists.vpsfree.cz > http://lists.vpsfree.cz/listinfo/community-list

Wolf

10:40 a.m.

Zdarj,

On , Jiří Pucherna wrote:

...

za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku nez pak resit nejaky neprijemny random :)

kdyz uz se tu rozjidi takove vselidove hlasovani, mne osobne take prijde rozumnejsi rollback v planovanem vypadku.

-- There are only two hard things in Computer Science: cache invalidation, naming things and off-by-one errors.

Jan Domankus

10:46 a.m.

S tymto suhlasim, tiez sa mi zda rozumnejsi planovany vypadok, ako potom riesit pripadne upratanie FS v pripade neplanovaneho vypadku (poskodenie FS je asi menej pravdepodobne v pripade planovaneho vypadku).

On 05. 08. 2019 12:36, Jiří Pucherna wrote:

...

Ahoj,

za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku nez pak resit nejaky neprijemny random :)

Jirka

--

Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01 Telefon: +420 724 330 493 | Web: http://www.reklalink.cz On 05. 08. 19 12:25, Pavel Snajdr wrote:

...
Cauko,

no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na 0.8.1 “stable” release, jenze na nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.

Nejvetsi WTF je toto:

https://github.com/zfsonlinux/zfs/issues/8673

Tam jde o nejakou strasne nestastnou race condition, kterou dojde k tomu, ze objekt, do kteryho se zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS mensi, nez zapis, co do nej zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a pomenila svuj obsah na nekterych strojich i na nekolikrat.

Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k deadlocku; pravdepodobne za to muzou zmeny, ktere byly backportovany i do starsich releases, 0.7.11 a dal tim trpi taktez. Ale zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, takhle zblizka dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs. jemna interakce s ARC a ne uplne systematicky doresenou reclaim path, je to docela komplexni peklo na palici :)) Existuje totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v jadre tlacit, aby uvolnilo pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to nemelo opakovat... Spatnou zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL, takze vz nodu u nas uz se novejsi verze ZFS nejspis netykaji.

No a posledni annoying bug je s paralelnim mountem vs. existujicimi nonempty mounty. Paralel mount kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu a zbytek proste nenamountuje. Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a zbytek nejde ani mountnout.

Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.

Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel jsem na to, ze bude lepsi rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS.

Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou za par dni, nepredvidatelne a jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat vsechno kvuli rollbacku na 0.8.0-rc2?

Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na rc2 az po padu; je to na min celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni, dobu.

Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen neco, nebo takhle?

/snajpa

On 5 Aug 2019, at 05:43, zd nex <zdnexnet@gmail.com mailto:zdnexnet@gmail.com> wrote:

...
Ahojte,

zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?

Zdenek _______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz mailto:Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Jakub Fišer

11:43 a.m.

hoj,

August 5, 2019 12:46 PM, "Jan Domankus" jan.domankus@gmail.com wrote:

...

S tymto suhlasim, tiez sa mi zda rozumnejsi planovany vypadok, ako potom riesit pripadne upratanie FS v pripade neplanovaneho vypadku (poskodenie FS je asi menej pravdepodobne v pripade planovaneho vypadku).

"poškodit" ZFS je imho o dost náročnější, než to jen nechat slítnout na nějaký panice :)

Nicméně co se výpadku týče, preferuju plánovaný a kontrolovaný rolling updaty někdy v rozmezí 01:00 - 05:00. Imho je to lepší i pro adminy, hlavně proto, že je to celý jak technicky, tak procesně víc pod kontrolou, je tam míň neznámých vstupních podmínek, dají se dělat canary testy a hlavně lidi nebudou dělat hromadný nálety na IRCčku :)

-miky

...

J.

On 05. 08. 2019 12:36, Jiří Pucherna wrote:

...
Ahoj,

za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku nez pak resit nejaky neprijemny random :)

Jirka

--

Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01 Telefon: +420 724 330 493 | Web: http://www.reklalink.cz On 05. 08. 19 12:25, Pavel Snajdr wrote:

...
Cauko,

no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na 0.8.1 “stable” release, jenze na nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.

Nejvetsi WTF je toto:

https://github.com/zfsonlinux/zfs/issues/8673

Tam jde o nejakou strasne nestastnou race condition, kterou dojde k tomu, ze objekt, do kteryho se zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS mensi, nez zapis, co do nej zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a pomenila svuj obsah na nekterych strojich i na nekolikrat.

Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k deadlocku; pravdepodobne za to muzou zmeny, ktere byly backportovany i do starsich releases, 0.7.11 a dal tim trpi taktez. Ale zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, takhle zblizka dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs. jemna interakce s ARC a ne uplne systematicky doresenou reclaim path, je to docela komplexni peklo na palici :)) Existuje totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v jadre tlacit, aby uvolnilo pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to nemelo opakovat... Spatnou zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL, takze vz nodu u nas uz se novejsi verze ZFS nejspis netykaji.

No a posledni annoying bug je s paralelnim mountem vs. existujicimi nonempty mounty. Paralel mount kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu a zbytek proste nenamountuje. Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a zbytek nejde ani mountnout.

Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.

Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel jsem na to, ze bude lepsi rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS. Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou za par dni, nepredvidatelne a jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat vsechno kvuli rollbacku na 0.8.0-rc2?

Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na rc2 az po padu; je to na min celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni, dobu.

Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen neco, nebo takhle?

/snajpa

On 5 Aug 2019, at 05:43, zd nex zdnexnet@gmail.com wrote:

...
Ahojte,

zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?

Zdenek

...

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

-- Jakub Fišer Linux | DevOps | Security +420-603 797 487

zd nex

16 Sep 16 Sep

5:22 a.m.

New subject: [vpsFree.cz: community-list] Opakované výpadky ZFS

Ahojte,

ok vypadá to že ZFS panic a problémy se stále asi nepodařilo vyřešit co?

po 5. 8. 2019 v 13:43 odesílatel Jakub Fišer kuba@ufiseru.cz napsal:

...

hoj,

August 5, 2019 12:46 PM, "Jan Domankus" jan.domankus@gmail.com wrote:

...
S tymto suhlasim, tiez sa mi zda rozumnejsi planovany vypadok, ako potom

riesit pripadne upratanie

...
FS v pripade neplanovaneho vypadku (poskodenie FS je asi menej

pravdepodobne v pripade planovaneho

...
vypadku).

"poškodit" ZFS je imho o dost náročnější, než to jen nechat slítnout na nějaký panice :)

Nicméně co se výpadku týče, preferuju plánovaný a kontrolovaný rolling updaty někdy v rozmezí 01:00 - 05:00. Imho je to lepší i pro adminy, hlavně proto, že je to celý jak technicky, tak procesně víc pod kontrolou, je tam míň neznámých vstupních podmínek, dají se dělat canary testy a hlavně lidi nebudou dělat hromadný nálety na IRCčku :)

-miky

...
J.

On 05. 08. 2019 12:36, Jiří Pucherna wrote:

...
Ahoj,

za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku

nez pak resit nejaky

...
...
neprijemny random :)

Jirka

--

Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01 Telefon: +420 724 330 493 | Web: http://www.reklalink.cz On 05. 08. 19 12:25, Pavel Snajdr wrote:

...
Cauko,

no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na

0.8.1 “stable” release, jenze na

...
...
...
nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.

Nejvetsi WTF je toto:

https://github.com/zfsonlinux/zfs/issues/8673

Tam jde o nejakou strasne nestastnou race condition, kterou dojde k

tomu, ze objekt, do kteryho se

...
...
...
zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS

mensi, nez zapis, co do nej

...
...
...
zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby

promlela a pomenila svuj obsah

...
...
...
na nekterych strojich i na nekolikrat.

Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k

deadlocku; pravdepodobne za

...
...
...
to muzou zmeny, ktere byly backportovany i do starsich releases,

0.7.11 a dal tim trpi taktez. Ale

...
...
...
zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS

internals, takhle zblizka

...
...
...
dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs.

jemna interakce s ARC a ne

...
...
...
uplne systematicky doresenou reclaim path, je to docela komplexni

peklo na palici :)) Existuje

...
...
...
totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v

jadre tlacit, aby uvolnilo

...
...
...
pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou

zpravou je, ze na kazdy vetsi

...
...
...
vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to

nemelo opakovat... Spatnou

...
...
...
zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL,

takze vz nodu u nas uz se

...
...
...
novejsi verze ZFS nejspis netykaji.

No a posledni annoying bug je s paralelnim mountem vs. existujicimi

nonempty mounty. Paralel mount

...
...
...
kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu

a zbytek proste nenamountuje.

...
...
...
Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve

VPSky a zbytek nejde ani

...
...
...
mountnout.

Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.

Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel

jsem na to, ze bude lepsi

...
...
...
rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS. Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou

za par dni, nepredvidatelne a

...
...
...
jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd

proces), ma cenu rebootovat

...
...
...
vsechno kvuli rollbacku na 0.8.0-rc2?

Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na

rc2 az po padu; je to na min

...
...
...
celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni,

dobu.

...
...
...
Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen

neco, nebo takhle?

...
...
...
/snajpa

On 5 Aug 2019, at 05:43, zd nex zdnexnet@gmail.com wrote:

...
Ahojte,

zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké

problémy?

...
...
...
...
Zdenek

...

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

-- Jakub Fišer Linux | DevOps | Security +420-603 797 487 _______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

-- -- S pozdravem, Zdeněk Dlauhý Email:support@pripravto.cz Mobil: +420 702 549 370 Web: www.pripravto.cz

mochour＠email.cz

28 Sep 28 Sep

9:10 p.m.

New subject: Stav vpsFree a další rozvoj

Ahoj,

nevím jestli je to jen můj dojem, ale přijde mi, že úroveň podpory a intenzita komunikace v rámci vpsFree nějak upadá.

Z mé osobní zkušenosti mám pocit, že to neznačí nic dobrého. K mému úsudku mě vedou následující indicie:

- soustředíte se hlavně na vpsAdminOS a OpenVZ už není plně podporováno,

- finální zprovoznění vpsAdminOS se oddaluje,

- opakované výpadky způsobené ZFS a následná downgrade,

- reakce podpory a komunikace v rámci komunity se nestandardně prodlužuje.

Protože jsem dosud spokojený člen vpsFree, mám zájem aby moje spokojenost pokračovala i nadále.

Věřte mi, že nedostatek informací pro "nezúčastněné" a nejistota může způsobit tolik problémů, že je nebude možné jednoduše napravit.

Zlaté pravidlo Projektového řízení je "SHARE THE PAIN".

Pokud mám je paranoidní pocit, tak se omlouvám ... :-)

Pavel Snajdr

29 Sep 29 Sep

12:09 p.m.

New subject: Stav vpsFree a další rozvoj

Ahoj,

ze vsecho nejvic povazuju za odpoved, ze pouzivas Re: na nesouvisejici vlakno, ktere je uz davno vyresene a menis tam subject, ceho si nemusi vsimnout nikdo, kdo pouziva mail klienta, ktery radi veci podle vlakna (cili my vsichni).

Opakovane furt dokola: na podporu se pise novym cistym mailem, re: na cosi stareho dopadne presne takto :)

/snajpa

On 2019-09-28 23:10, mochour@email.cz wrote:

...

Ahoj,

nevím jestli je to jen můj dojem, ale přijde mi, že úroveň podpory a intenzita komunikace v rámci vpsFree nějak upadá.

Z mé osobní zkušenosti mám pocit, že to neznačí nic dobrého. K mému úsudku mě vedou následující indicie:

soustředíte se hlavně na vpsAdminOS a OpenVZ už není plně

podporováno,

finální zprovoznění vpsAdminOS se oddaluje,

opakované výpadky způsobené ZFS a následná downgrade,

reakce podpory a komunikace v rámci komunity se nestandardně

prodlužuje.

Protože jsem dosud spokojený člen vpsFree, mám zájem aby moje spokojenost pokračovala i nadále. Věřte mi, že nedostatek informací pro "nezúčastněné" a nejistota může způsobit tolik problémů, že je nebude možné jednoduše napravit.

Zlaté pravidlo Projektového řízení je "SHARE THE PAIN".

Pokud mám je paranoidní pocit, tak se omlouvám ... :-)

H _______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

Pavel Snajdr

12:31 p.m.

New subject: Stav vpsFree a další rozvoj

Jinac @ share the pain...

No, ZFS 0.8.x je absolutni vybuch, nemuzu doporucit vubec nikomu nasadit to do produkce. Posledni mesic jsem stravil zalezly v kodu, git blame a jedem - zkoumanim, ktery chytrolin rozbil ZFS tak, ze nam to tak nechutne zacalo padat.

Snazil jsem se fakt dlouho na spoustu pokusu (coz vylucuje, ze bychom se na vsechno vykaslali a OpenVZ/produkcni prostredi uz neresili). Jedina dalsi informace, ktery jsem se drzel je, ze nikdo nereportoval ty pady na 0.7.9 a nizsich verzich:

https://github.com/zfsonlinux/zfs/issues/8673

Problemem bylo, ze uz pouzivame novou featuru, co zmenila on-disk format (project quotas, aniz bychom ji teda realne pouzivali, tady se projevi CoW a to, ze zmenena data se zapisou uplne znova vc. struktury co na ne odkazuje az na vrchol stromu, uberblock).

Do hazardu s nasazovanim starsi verze se mi docela dlouho nechtelo, az uz ale nezbyvala zadna jina moznost; nakonec se teda ukazalo, ze jde fakt jenom o project quotas a ostatni features, co potrebujeme, uz 0.7 vetev mela (a dalsi, co ma jen 0.8 a treba jsme je meli i enabled, se neaktivovaly, protoze nic nevynutilo jejich pouziti, sem patri napr. sifrovani, co jeste porad povazujeme za preview feature, takze ho integrovat ani nejdeme, zatim).

Portnout se povedlo na cca druhy pokus, chtelo to jeste lip nacist rozdil mezi 0.8 a 0.7 vetvema.

A co se tyce "zdrzovani" nasazeni vpsAdminOS - no jaksi nevydala zase sazka na lidi, jsme na to s aitherem zas sami dva. Sorki je z tymu out, vic k tomu asi radsi jen osobne.

Takze jeste porad treba zbyva doprogramovat migraci mezi vpsadminos nody, protoze jsme se plne soustredili na os samotny (aither ma rozepsany dlouhy mail, co chtel poslat uz minuly tyden, ale nakonec si rekl, ze to posle az kdyz doresi NFS na vpsAdminOS, co zas vypada na kousek vic prace, nez se cekalo, SNAFU).

Ja ted resim, aby overlayfs bezelo v user namespace bez zmen a aby to Docker pouzil rovnou (napr. odmita vubec bezet, kdyz je pod nim ZFS, takze musime fake-ovat nonZFS filesystem, kdyz nas uz overlayfs zacina podporovat). Jeste dost prace, ale nakonec pojede Docker unpatched - a dokonce mam vyhlidku na Docker in Docker, tj. privileged Docker mode, aby proste fungovalo v userns :)

Akorat to je jeste vic prace.

Ohledne roadmapy, co s vpsAdminOS v produkci... zdrzelo se to i kvuli mymu odskoceni si zas resit nejaky podnikatelsky vzdusny zamky, co zas a znova nevydavaj, takze uz na ne kaslu a jsem zpatky focusem naplno - co jsem chtel outsourcovat, si nakonec udelam rychleji sam, takze vyrabet nejaky obrat, aby bylo z ceho zaplatit dalsi lidi je dost misguided, na to snad ani neexistuje byznys, co by se dal udelat z CZ a vyrost dost rychle, aby to stalo za zminku v kontextu puvodniho planu - mit okolo sebe hromadu vyvojaru na ty open veci, co nutne potrebujem k rozvoji dal - vc. rozvoje HW, meh, nevyslo, tak co uz, nejsem takovej superman holt.

Takze... kaslu letos i na konfery a radsi delame na tom, abychom meli OS v produkci co nejdriv. Konkretni sliby davat nebudu, jen, ze to chceme mit uz co nejdriv za sebou, idealne celou migraci pryc z OpenVZ :))

/snajpa

On 2019-09-28 23:10, mochour@email.cz wrote:

...

Ahoj,

nevím jestli je to jen můj dojem, ale přijde mi, že úroveň podpory a intenzita komunikace v rámci vpsFree nějak upadá.

Z mé osobní zkušenosti mám pocit, že to neznačí nic dobrého. K mému úsudku mě vedou následující indicie:

soustředíte se hlavně na vpsAdminOS a OpenVZ už není plně

podporováno,

finální zprovoznění vpsAdminOS se oddaluje,

opakované výpadky způsobené ZFS a následná downgrade,

reakce podpory a komunikace v rámci komunity se nestandardně

prodlužuje.

Protože jsem dosud spokojený člen vpsFree, mám zájem aby moje spokojenost pokračovala i nadále. Věřte mi, že nedostatek informací pro "nezúčastněné" a nejistota může způsobit tolik problémů, že je nebude možné jednoduše napravit.

Zlaté pravidlo Projektového řízení je "SHARE THE PAIN".

Pokud mám je paranoidní pocit, tak se omlouvám ... :-)

H _______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list

2252

Age (days ago)

2307

Last active (days ago)

community-list@lists.vpsfree.cz

10 comments

8 participants

tags (0)

participants (8)

Jakub Fišer
Jan Domankus
Jiří Pucherna
Lukáš Němec
mochour＠email.cz
Pavel Snajdr
Wolf
zd nex