-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA256
Kratka odpoved: vim, vyreseno workaroundem.
Dlouha odpoved:
Za urcity konstelace hvezd nam deadlockoval spl_system_task. Zaseknul
se na tom, ze nemuze naalokovat pamet - tedy projevuje se to na
serverech pod memory pressure. No a pak to vedlo k procesum, cekajicim
na IO, protoze ty spl_system_tasky jsou tam v necem jako thread poolu,
kam se prace rozdeluje round-robinem a kdyz dosla rada zrovna na ten
deadlocknuty (pri vyssi zatezi, kdyz se nestihalo, coz se delo bezne,
viz dalsi text), proste ta IO operace zustala viset.
Jedinou pomoci byl reboot (nekdy dokonce jenom reset) toho serveru.
Konkretne pri pokusu o serializaci dat a zfs send | ssh remote_node
zfs receive se to stavalo celkem bezne. Takhle jsme chteli zalohovat,
ze by se proste na nodu udelal snapshot VPS a data toho snapshotu se
cele, jak jsou, vezmou a prenesou na zalohovaci server (backuper.prg).
Takze jsme send/recv prestali delat a vratili jsme se k zalohovani
rsyncem, dokud tuhle chybu neopravi.
Jinak node6 ma na sobe aktualne asi vsechny VPS, ktere nejakym
zpusobem delaji IO. Je totalne nejvytizenejsi ze vsech masin, co mame.
Zkouska ohnem - az na takovou uroven, ze to ty disky misty nestihaji.
Po tom, co doinstaluju node5 to trochu rozbalancuju.
Na playground nody, ktere se ted nezalohuji, pujde ZFS v plny
konfiguraci se zalohovanim pres send/recv, abychom vedeli o momentu,
kdy to fixnou. Tam nevadi casty restart - nejsou stejne urcene na
produkcni provoz.
Jinak lidi, shanime do Relbitu (mozna napul s vpsFree) nekoho na vyvoj
ZFS, jestli vite o nekom, kdo umi C a neboji se uspinit kernel kodem,
posleteho mym smerem.
/snajpa
On 09/25/2013 12:06 PM, Pavel Vondřička wrote:
K tomu ZFS: Ještě tak někdy před dvěma třema týdny
(pardon, už si
to nepamatuju) node6 zadrhávalo tak, že se mi PHP aplikace nemohla
připojit k databázi a málem jsem se ani nenalogoval. Naštěstí to po
čase přešlo. Nevím, jestli za to mohlo to ZFS nebo nějaký zblázněný
virtuál, a jestli je to identifikovaný a už vyřešený problém (žádná
zpráva o výpadku ten den nepřišla), ale doufám, že už se to nebude
opakovat. Málem jsem už chtěl poprosit o přestěhování zpět na
původní server - problémy (skoro) každý týden mi už přišly jako
trochu moc...
Pavel
Tak jeste lepsi zprava (jakoze fakt, protoze
aspon vim presne, co
tomu je) - milej zlatej posranej linuxovej sofware raid1 (prosim
prosim, nepouzivejte ho nikde, raid10 a podobne jsou fajn, ale
raid1 je SRACKA vylozene) si nevsim ze mu pomalu odchazi SSD pod
nim... Nahodne zdrzoval read IO requesty, ktere mohl odbavit
ctenim ze zdraveho SSD.
No nic lidicky, ZFS uz mam vychytane (pokud se nepouzivaji
snapshoty na zfs on linux, tak to chodi 100% dobre - coz nevadi,
protoze zalohujeme pres rsync), takze node5+ZFS, premigruju tam
veci z node8 a postupne na ZFS prejdeme vsude. To takovyhle veci
nedela a funguje rychleji.
/snajp
On 09/25/2013 08:52 AM, Pavel Snajdr wrote:
Caute,
na node8 vypada, ze delal problem kernel, ale nemuzu si byt
100% jisty, ze to neni hardwarem.
Dneska nainstaluju node5 a v noci zahajim presun vsech VPS z
node8 na noed5, tak mejte prosim trpelivost s dalsim - uz
mensim - vypadkem (restart pri migraci).
Node8 potom poradne prozkousim a hlavne preinstaluju od nuly.
_______________________________________________ Community-list
mailing list Community-list(a)lists.vpsfree.cz
http://lists.vpsfree.cz/listinfo/community-list
_______________________________________________ Community-list
mailing list Community-list(a)lists.vpsfree.cz
http://lists.vpsfree.cz/listinfo/community-list
_______________________________________________ Community-list
mailing list Community-list(a)lists.vpsfree.cz
http://lists.vpsfree.cz/listinfo/community-list
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.12 (GNU/Linux)
Comment: Using GnuPG with Icedove -
http://www.enigmail.net/
iF4EAREIAAYFAlJCu4kACgkQMBKdi9lkZ6q+NAEA06DSNK3crkj0Jc0HU/nIEuOb
vgW18tk6ZBpoQ1xaBKIA/3AjMo1aVz9fZaTsCApNZcSZBrZ2gFrhL7s7U1wo6w5c
=O8Fh
-----END PGP SIGNATURE-----