<div dir="ltr"><div>Ahojte,</div><div><br></div><div>ok vypadá to že ZFS panic a problémy se stále asi nepodařilo vyřešit co? <br></div><br><div class="gmail_quote"><div dir="ltr" class="gmail_attr">po 5. 8. 2019 v 13:43 odesílatel Jakub Fišer <<a href="mailto:kuba@ufiseru.cz" target="_blank">kuba@ufiseru.cz</a>> napsal:<br></div><blockquote class="gmail_quote" style="margin:0px 0px 0px 0.8ex;border-left:1px solid rgb(204,204,204);padding-left:1ex">hoj,<br>
<br>
<br>
August 5, 2019 12:46 PM, "Jan Domankus" <<a href="mailto:jan.domankus@gmail.com" target="_blank">jan.domankus@gmail.com</a>> wrote:<br>
<br>
> S tymto suhlasim, tiez sa mi zda rozumnejsi planovany vypadok, ako potom riesit pripadne upratanie<br>
> FS v pripade neplanovaneho vypadku (poskodenie FS je asi menej pravdepodobne v pripade planovaneho<br>
> vypadku).<br>
<br>
<br>
"poškodit" ZFS je imho o dost náročnější, než to jen nechat slítnout na nějaký panice :)<br>
<br>
<br>
Nicméně co se výpadku týče, preferuju plánovaný a kontrolovaný rolling updaty někdy v rozmezí 01:00 - 05:00. Imho je to lepší i pro adminy, hlavně proto, že je to celý jak technicky, tak procesně víc pod kontrolou, je tam míň neznámých vstupních podmínek, dají se dělat canary testy a hlavně lidi nebudou dělat hromadný nálety na IRCčku :)<br>
<br>
<br>
 -miky<br>
<br>
<br>
<br>
> <br>
> J.<br>
> <br>
> On 05. 08. 2019 12:36, Jiří Pucherna wrote:<br>
> <br>
>> Ahoj,<br>
>> <br>
>> za sebe jsem spis pro variantu to rollbacknout vse v planovanem vypadku nez pak resit nejaky<br>
>> neprijemny random :)<br>
>> <br>
>> Jirka<br>
>> <br>
>> -- <br>
>> -------------------------------------------------<br>
>> Reklalink s.r.o. | A. Jiráska 260 | Příbram | 261 01<br>
>> Telefon: +420 724 330 493 | Web: <a href="http://www.reklalink.cz" rel="noreferrer" target="_blank">http://www.reklalink.cz</a><br>
>> On 05. 08. 19 12:25, Pavel Snajdr wrote:<br>
>> <br>
>>> Cauko,<br>
>>> <br>
>>> no, pri poslednim vserestartu jsme upgradovali ZFS z 0.8.0-rc2 na 0.8.1 “stable” release, jenze na<br>
>>> nem hitujeme hned tri bugy, oproti rc2, kde nas netrapilo nic.<br>
>>> <br>
>>> Nejvetsi WTF je toto:<br>
>>> <br>
>>> <a href="https://github.com/zfsonlinux/zfs/issues/8673" rel="noreferrer" target="_blank">https://github.com/zfsonlinux/zfs/issues/8673</a><br>
>>> <br>
>>> Tam jde o nejakou strasne nestastnou race condition, kterou dojde k tomu, ze objekt, do kteryho se<br>
>>> zapisuje asynchronnima zapisama, je v jednu chvili z pohledu ZFS mensi, nez zapis, co do nej<br>
>>> zamiri. Stane se to hlavne v noci, kdy se nejvic tlaci na ARC, aby promlela a pomenila svuj obsah<br>
>>> na nekterych strojich i na nekolikrat.<br>
>>> <br>
>>> Kdyz uz nehitneme tenhle PANIC, dojde jeste s mensi pravdepodobnosti k deadlocku; pravdepodobne za<br>
>>> to muzou zmeny, ktere byly backportovany i do starsich releases, 0.7.11 a dal tim trpi taktez. Ale<br>
>>> zatim se mi nepovedlo to dolovit, spis je to pro mne velka skola ZFS internals, takhle zblizka<br>
>>> dovnitr jsem jeste videt nepotreboval. A s tim zamykanim dnodes vs. jemna interakce s ARC a ne<br>
>>> uplne systematicky doresenou reclaim path, je to docela komplexni peklo na palici :)) Existuje<br>
>>> totiz nekolik cest, odkud se oproti Solarisu i FreeBSD da na ZFS v jadre tlacit, aby uvolnilo<br>
>>> pamet; nedostava to tak komplexni testovani, jak by melo. Dobrou zpravou je, ze na kazdy vetsi<br>
>>> vyreseny WTF bug vznikaji testy a v pristich releasech by uz se to nemelo opakovat... Spatnou<br>
>>> zpravou je, ze nad tak starym jadrem uz to neprovozujou ani v LLNL, takze vz nodu u nas uz se<br>
>>> novejsi verze ZFS nejspis netykaji.<br>
>>> <br>
>>> No a posledni annoying bug je s paralelnim mountem vs. existujicimi nonempty mounty. Paralel mount<br>
>>> kod se s neurcitosti dovede vysekat po namountovani dvou tri datasetu a zbytek proste nenamountuje.<br>
>>> Tak se stalo uz nekolikrat, ze po resetu nabehnou na stroji jedna dve VPSky a zbytek nejde ani<br>
>>> mountnout.<br>
>>> <br>
>>> Takze jsme vsude nainstalovali zpatky 0.8.0-rc2.<br>
>>> <br>
>>> Snazil jsem se nekolik dni prijit tem lockupum na kloub, ale dosel jsem na to, ze bude lepsi<br>
>>> rollbacknout a venovat se dal nonzombie kernelum, tj. vpsAdminOS.<br>
>>> Otazka k diskuzi: pokud jsou to bugy, na kterych padaji stroje jednou za par dni, nepredvidatelne a<br>
>>> jen pod velkou specifickou zatezi (vetsinou ten crash zpusobi rspamd proces), ma cenu rebootovat<br>
>>> vsechno kvuli rollbacku na 0.8.0-rc2?<br>
>>> <br>
>>> Ja jsem zvolil strategii nechat to bezet a nechat nabehnout stroje na rc2 az po padu; je to na min<br>
>>> celkoveho vypadku, ale mozna muze ten vypadek prijit v spatnou, denni, dobu.<br>
>>> <br>
>>> Co si o tom myslite, v takovym pripade, rollbackovat vsechno, jen neco, nebo takhle?<br>
>>> <br>
>>> /snajpa<br>
>>> <br>
>>> On 5 Aug 2019, at 05:43, zd nex <<a href="mailto:zdnexnet@gmail.com" target="_blank">zdnexnet@gmail.com</a>> wrote:<br>
>>> <br>
>>>> Ahojte,<br>
>>>> <br>
>>>> zdá se že se nějak nyní množí výpadky ZFS, jsou tam teď nějaké problémy?<br>
>>>> <br>
>>>> Zdenek<br>
>>> <br>
>>>> _______________________________________________<br>
>>>> Community-list mailing list<br>
>>>> <a href="mailto:Community-list@lists.vpsfree.cz" target="_blank">Community-list@lists.vpsfree.cz</a><br>
>>>> <a href="http://lists.vpsfree.cz/listinfo/community-list" rel="noreferrer" target="_blank">http://lists.vpsfree.cz/listinfo/community-list</a><br>
>>> _______________________________________________<br>
>>> Community-list mailing list<br>
>>> <a href="mailto:Community-list@lists.vpsfree.cz" target="_blank">Community-list@lists.vpsfree.cz</a><br>
>>> <a href="http://lists.vpsfree.cz/listinfo/community-list" rel="noreferrer" target="_blank">http://lists.vpsfree.cz/listinfo/community-list</a><br>
>> _______________________________________________<br>
>> Community-list mailing list<br>
>> <a href="mailto:Community-list@lists.vpsfree.cz" target="_blank">Community-list@lists.vpsfree.cz</a><br>
>> <a href="http://lists.vpsfree.cz/listinfo/community-list" rel="noreferrer" target="_blank">http://lists.vpsfree.cz/listinfo/community-list</a><br>
<br>
--<br>
Jakub Fišer<br>
Linux | DevOps | Security<br>
+420-603 797 487<br>
_______________________________________________<br>
Community-list mailing list<br>
<a href="mailto:Community-list@lists.vpsfree.cz" target="_blank">Community-list@lists.vpsfree.cz</a><br>
<a href="http://lists.vpsfree.cz/listinfo/community-list" rel="noreferrer" target="_blank">http://lists.vpsfree.cz/listinfo/community-list</a><br>
</blockquote></div></div><br clear="all"><br>-- <br><div dir="ltr" class="gmail-m_1706365583287364615gmail_signature"><div dir="ltr"><div><div dir="ltr"><br><span>-- <br></span>S pozdravem,
<br>
<br>Zdeněk Dlauhý
<br>
<br>Email:<a href="mailto:support@pripravto.cz" target="_blank">support@pripravto.cz</a>
<br>Mobil: +420 702 549 370<br>Web: <a href="http://www.pripravto.cz" target="_blank">www.pripravto.cz</a></div></div></div></div>