Ahojte,
ok vypadá to že ZFS panic a problémy se stále asi nepodařilo vyřešit co?
po 5. 8. 2019 v 13:43 odesílatel Jakub Fišer <kuba(a)ufiseru.cz> napsal:
hoj,
August 5, 2019 12:46 PM, "Jan Domankus" <jan.domankus(a)gmail.com> wrote:
S tymto suhlasim, tiez sa mi zda rozumnejsi
planovany vypadok, ako potom
riesit pripadne upratanie
FS v pripade neplanovaneho vypadku (poskodenie FS
je asi menej
pravdepodobne v pripade planovaneho
vypadku).
"poškodit" ZFS je imho o dost náročnější, než to jen nechat slítnout na
nějaký panice :)
Nicméně co se výpadku týče, preferuju plánovaný a kontrolovaný rolling
updaty někdy v rozmezí 01:00 - 05:00. Imho je to lepší i pro adminy, hlavně
proto, že je to celý jak technicky, tak procesně víc pod kontrolou, je tam
míň neznámých vstupních podmínek, dají se dělat canary testy a hlavně lidi
nebudou dělat hromadný nálety na IRCčku :)
-miky
J.
On 05. 08. 2019 12:36, Jiří Pucherna wrote:
> Ahoj,
>
> za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku
nez
pak resit nejaky
> neprijemny random :)
>
> Jirka
>
> --
> -------------------------------------------------
> Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01
> Telefon: +420 724 330 493 | Web:
http://www.reklalink.cz
> On 05. 08. 19 12:25, Pavel Snajdr wrote:
>
>> Cauko,
>>
>> no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na
0.8.1
“stable” release, jenze na
>> nem hitujeme hned tri bugy, oproti rc2,
kde nas netrapilo nic.
>>
>> Nejvetsi WTF je toto:
>>
>>
https://github.com/zfsonlinux/zfs/issues/8673
>>
>> Tam jde o nejakou strasne nestastnou race condition, kterou dojde k
tomu,
ze objekt, do kteryho se
>> zapisuje asynchronnima zapisama, je v
jednu chvili z pohledu ZFS
mensi, nez zapis, co do nej
>> zamiri. Stane se to hlavne v noci, kdy se
nejvic tlaci na ARC, aby
promlela a pomenila svuj obsah
>> na nekterych strojich i na nekolikrat.
>>
>> Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k
deadlocku; pravdepodobne za
>> to muzou zmeny, ktere byly backportovany
i do starsich releases,
0.7.11 a dal tim trpi taktez. Ale
>> zatim se mi nepovedlo to dolovit, spis je
to pro mne velka skola ZFS
internals, takhle zblizka
>> dovnitr jsem jeste videt nepotreboval. A
s tim zamykanim dnodes vs.
jemna interakce s ARC a ne
>> uplne systematicky doresenou reclaim
path, je to docela komplexni
peklo na palici :)) Existuje
>> totiz nekolik cest, odkud se oproti
Solarisu i FreeBSD da na ZFS v
jadre tlacit, aby uvolnilo
>> pamet; nedostava to tak komplexni
testovani, jak by melo. Dobrou
zpravou je, ze na kazdy vetsi
>> vyreseny WTF bug vznikaji testy a v
pristich releasech by uz se to
nemelo opakovat... Spatnou
>> zpravou je, ze nad tak starym jadrem uz
to neprovozujou ani v LLNL,
takze vz nodu u nas uz se
>> novejsi verze ZFS nejspis netykaji.
>>
>> No a posledni annoying bug je s paralelnim mountem vs. existujicimi
nonempty mounty. Paralel mount
>> kod se s neurcitosti dovede vysekat po
namountovani dvou tri datasetu
a zbytek proste nenamountuje.
>> Tak se stalo uz nekolikrat, ze po resetu
nabehnou na stroji jedna dve
VPSky a zbytek nejde ani
>> mountnout.
>>
>> Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.
>>
>> Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel
jsem na
to, ze bude lepsi
>> rollbacknout a venovat se dal nonzombie
kernelum, tj. vpsAdminOS.
>> Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou
za
par dni, nepredvidatelne a
>> jen pod velkou specifickou zatezi
(vetsinou ten crash zpusobi rspamd
proces), ma cenu rebootovat
>> vsechno kvuli rollbacku na 0.8.0-rc2?
>>
>> Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na
rc2
az po padu; je to na min
>> celkoveho vypadku, ale mozna muze ten
vypadek prijit v spatnou, denni,
dobu.
>>
>> Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen
neco,
nebo takhle?
>>
>> /snajpa
>>
>> On 5 Aug 2019, at 05:43, zd nex <zdnexnet(a)gmail.com> wrote:
>>
>>> Ahojte,
>>>
>>> zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké
problémy?
>>>
>>> Zdenek
>>
>>> _______________________________________________
>>> Community-list mailing list
>>> Community-list(a)lists.vpsfree.cz
>>>
http://lists.vpsfree.cz/listinfo/community-list
>> _______________________________________________
>> Community-list mailing list
>> Community-list(a)lists.vpsfree.cz
>>
http://lists.vpsfree.cz/listinfo/community-list
> _______________________________________________
> Community-list mailing list
> Community-list(a)lists.vpsfree.cz
>
http://lists.vpsfree.cz/listinfo/community-list
--
Jakub Fišer
Linux | DevOps | Security
+420-603 797 487
_______________________________________________
Community-list mailing list
Community-list(a)lists.vpsfree.cz
http://lists.vpsfree.cz/listinfo/community-list
--
--
S pozdravem,
Zdeněk Dlauhý
Email:support@pripravto.cz
Mobil: +420 702 549 370
Web: