-----BEGIN PGP SIGNED MESSAGE----- Hash: SHA256
Kratka odpoved: vim, vyreseno workaroundem.
Dlouha odpoved: Za urcity konstelace hvezd nam deadlockoval spl_system_task. Zaseknul se na tom, ze nemuze naalokovat pamet - tedy projevuje se to na serverech pod memory pressure. No a pak to vedlo k procesum, cekajicim na IO, protoze ty spl_system_tasky jsou tam v necem jako thread poolu, kam se prace rozdeluje round-robinem a kdyz dosla rada zrovna na ten deadlocknuty (pri vyssi zatezi, kdyz se nestihalo, coz se delo bezne, viz dalsi text), proste ta IO operace zustala viset. Jedinou pomoci byl reboot (nekdy dokonce jenom reset) toho serveru. Konkretne pri pokusu o serializaci dat a zfs send | ssh remote_node zfs receive se to stavalo celkem bezne. Takhle jsme chteli zalohovat, ze by se proste na nodu udelal snapshot VPS a data toho snapshotu se cele, jak jsou, vezmou a prenesou na zalohovaci server (backuper.prg). Takze jsme send/recv prestali delat a vratili jsme se k zalohovani rsyncem, dokud tuhle chybu neopravi.
Jinak node6 ma na sobe aktualne asi vsechny VPS, ktere nejakym zpusobem delaji IO. Je totalne nejvytizenejsi ze vsech masin, co mame. Zkouska ohnem - az na takovou uroven, ze to ty disky misty nestihaji. Po tom, co doinstaluju node5 to trochu rozbalancuju.
Na playground nody, ktere se ted nezalohuji, pujde ZFS v plny konfiguraci se zalohovanim pres send/recv, abychom vedeli o momentu, kdy to fixnou. Tam nevadi casty restart - nejsou stejne urcene na produkcni provoz.
Jinak lidi, shanime do Relbitu (mozna napul s vpsFree) nekoho na vyvoj ZFS, jestli vite o nekom, kdo umi C a neboji se uspinit kernel kodem, posleteho mym smerem.
/snajpa
On 09/25/2013 12:06 PM, Pavel Vondřička wrote:
K tomu ZFS: Ještě tak někdy před dvěma třema týdny (pardon, už si to nepamatuju) node6 zadrhávalo tak, že se mi PHP aplikace nemohla připojit k databázi a málem jsem se ani nenalogoval. Naštěstí to po čase přešlo. Nevím, jestli za to mohlo to ZFS nebo nějaký zblázněný virtuál, a jestli je to identifikovaný a už vyřešený problém (žádná zpráva o výpadku ten den nepřišla), ale doufám, že už se to nebude opakovat. Málem jsem už chtěl poprosit o přestěhování zpět na původní server - problémy (skoro) každý týden mi už přišly jako trochu moc...
Pavel
Tak jeste lepsi zprava (jakoze fakt, protoze aspon vim presne, co tomu je) - milej zlatej posranej linuxovej sofware raid1 (prosim prosim, nepouzivejte ho nikde, raid10 a podobne jsou fajn, ale raid1 je SRACKA vylozene) si nevsim ze mu pomalu odchazi SSD pod nim... Nahodne zdrzoval read IO requesty, ktere mohl odbavit ctenim ze zdraveho SSD.
No nic lidicky, ZFS uz mam vychytane (pokud se nepouzivaji snapshoty na zfs on linux, tak to chodi 100% dobre - coz nevadi, protoze zalohujeme pres rsync), takze node5+ZFS, premigruju tam veci z node8 a postupne na ZFS prejdeme vsude. To takovyhle veci nedela a funguje rychleji.
/snajp
On 09/25/2013 08:52 AM, Pavel Snajdr wrote:
Caute,
na node8 vypada, ze delal problem kernel, ale nemuzu si byt 100% jisty, ze to neni hardwarem.
Dneska nainstaluju node5 a v noci zahajim presun vsech VPS z node8 na noed5, tak mejte prosim trpelivost s dalsim - uz mensim - vypadkem (restart pri migraci).
Node8 potom poradne prozkousim a hlavne preinstaluju od nuly.
_______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list
_______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list
_______________________________________________ Community-list mailing list Community-list@lists.vpsfree.cz http://lists.vpsfree.cz/listinfo/community-list